Big data, deux hommes dans un datacentre
Deux hommes se promènent dans un data centre. Crédit photo : Robert Scoble en cc

 

La NASA a publiée Lundi 20 janvier un planisphère animé mettant en évidence le réchauffement climatique, mois après mois depuis 1880, grâce à l’analyse colossale de quelques 133 années de données : un résultat rendu possible grâce au ‘Big Data’. Vous avez entendu parler de ce terme mais vous ne savez pas ce qu’il signifie ? Le Big Data est pourtant très en vogue sur la toile et suscite beaucoup d’intérêt. La collecte et l’analyse de vastes ensembles de données annonceraient des avancées majeures dans des domaines aussi variés que la médecine, l’astrophysique, les sciences sociales, le marketing, avec des applications allant de la prévention des complications chez les bébés prématurés, à l’élaboration de campagnes publicitaires toujours plus personnalisées. Alors qu’un engouement grandissant s’opère, personne ne semble pourtant s’accorder sur la description. La notion étant récente, il n’existe d’ailleurs pas de définition bien arrêtée. Explosion de données, traitement en temps réel, analyse prédictive,… le concept est-il nouveau ? Qu’est-ce que le Big Data ? Quelles sont les utilisations ? La confusion autour du terme ne résiderait-elle pas dans la méthode elle-même ?

Le Big Data naît en premier lieu d’une conjoncture technologique et économique.

  • Le nombre de capteurs en tout genre qui permettent de « photographier le réel », (smart phones, appareils photos, satellites, télescopes, e-mails, réseaux sociaux)  a connu un essor colossal ces dernières années, ce qui donne un intérêt accru aux données collectées.
  • Le volume de données croît à très grande vitesse : Tous les deux jours, nous générons autant de données que l’ensemble de l’humanité depuis le début de son existence jusqu’en 2003, et 90% des données existantes ont été générées durant ces deux dernières années ((Propos d’Eric Schmidt, ancien PDG de Google.)).
  • Pourtant, moins d’1% des données digitales sont analysées ! La problématique est donc d’utiliser intelligemment ces immenses volumes de données et ne pas les laisser disparaître submergés par leur nombre et leur fréquence.
  • Aussi, les réseaux sont maintenant assez rapides, le stockage et les capacités de calcul ont atteint un coût assez faible, pour permettre aux organisations de sauvegarder et de traiter l’ensemble des données qu’elles génèrent à un rythme et un prix acceptables.
  • Enfin, des technologies au cœur du Big Data telles que la virtualisation, le traitement parallèle, les systèmes de fichiers distribués existent depuis des décennies, mais certaines applications comme Hadoop ((Apache Hadoop est un framework open-source dédié au stockage et au traitement par calcul parallèle de données à grande échelle, distribué sur un cluster.)) ont été utilisé plus largement ces dernières années.

L’expansion actuelle du Big Data peut ainsi s’expliquer par la disponibilité, la maturité et la possible combinaison de technologies, qui répondent à un besoin nouveau, produit par l’explosion des données que nous générons et des capacités de stockage. De ce fait, la discipline serait plus une révolution conceptuelle que technologique, dans la manière d’utiliser les données, les nouveaux ordres de grandeur imposant de réviser la capture, le stockage, la recherche, le partage, l’analyse et la visualisation. D’un autre point de vue, on pourrait considérer faire du Big Data dès lors qu’on tire profit de grands volumes de données et que l’extraction de ces informations n’aurait pu être possible avec moins de données ((D’après Kenneth Cukier, auteur de “Big Data: A revolution that will transform how we live, work, and think”.)).

Un nouveau paradigme de la science

La nouvelle approche rendue possible par tant de données est à l’origine de ce que Tony Hey appelle le quatrième paradigme de la science ((Tony Hey: “The Fourth Paradigm : Data-Intensive Scientific Discovery”.)) : si le premier était celui de l’observation des phénomènes naturels, le deuxième lié au développement des sciences dures et de la théorisation, le troisième représentant l’évaluation des théories avec des simulations par ordinateur, l’ère du Big Data forme un quatrième paradigme, ou nous disposons de tellement de données qu’il est possible de laisser un ordinateur faire des découvertes par lui-même, simplement en trouvant des liens statistiques au sein de milliards de données. Le chercheur n’a aujourd’hui plus nécessairement besoin de théoriser pour faire une découverte.

La formule des 3V

Le cabinet Gartner qui aurait introduit la notion pour la première fois, caractérise le Big Data en 3 V :

  • Un grand Volume de données : du Terabyte (1012 bytes) au Yottabyte (1024 bytes), la capacité de stockage estimée de la NSA, qui représente mille fois l’ensemble des données générées en 2011.
  • Une grande Vélocité : la fréquence à laquelle les données sont générées, capturées et partagées. Cette contrainte temporelle peut nécessiter un traitement en temps réel, on parle alors de Data Stream Mining.
  • Une grande Variété : les données sont structurées ou non structurées et proviennent de différents types de fichier (photos, vidéos, commentaires écrits, courriels…). La gestion de données non structurées est  un des grands défis du Big Data.
  • Aussi, on peut ajouter un 4ème V qui est celui de la Véracité : afin d’en extraire l’information utile, il est souvent nécessaire de traiter les données qui peuvent être bruitées et imprécises.

Alors qu’Oracle ou Intel adoptent des définitions qui insistent sur la variété des données gérées, Microsoft met l’accent sur la spécificité des processus de traitement en intelligence artificiel ou par apprentissage automatique. Le projet MIKE définit la nouvelle discipline non pas comme une fonction du volume des jeux de données, mais de leur complexité ((http://www.technologyreview.com/view/519851/the-big-data-conundrum-how-to-define-it/)).

Alors, pourquoi utiliser le Big Data ?

Trois fonctions principales peuvent être attribuées ((Presentation « diving into data » d’Emmanuel Letouzé: http://prezi.com/uqr29m0rbo7h/techstate-moneyball-diplomacy-diving-into-data/)) :

  • Une fonction descriptive : documenter et mettre en évidence ce qui est en train de se produire;
  • Une fonction prédictive : donner une notion de ce qui va probablement se produire, indépendamment des causes possibles;
  • Une fonction de diagnostic : éclairer sur la cause de ce qui pourrait arriver, les raisons et la nature d’un évènement.

 

Si vous souhaitez découvrir un exemple d’application dans la recherche médicale

Le projet brainSCANr2 ((Jessica Voytek et Bradley Voytek: Automated cognome construction and semi-automated hypothesis generation, Journal of Neuroscience Methods, 2010.)) (Brain Systems, Connections, Associations, and Network Relationships) consiste à faire tourner un logiciel sur 3,5 millions de résumés d’articles pour trouver automatiquement des relations entre certaines maladies et des parties du cerveau. On trouve deux types d’associations, les associations fortes qui lient un terme à un autre lorsqu’ils apparaissent simultanément dans une même publication, et les associations faibles, que seul l’ordinateur permet de trouver, qui lient deux termes a et b lorsque chacun des termes possède une association forte à un terme c.  Les recherches ont montré des associations fortes entre sérotonine et migraine (2943 articles en commun) ainsi qu’entre sérotonine et striatium (4782 articles) alors que striatium et migraine n’apparaissent que dans 16 articles en même temps. L’idée est ainsi de mieux orienter les recherches futures pour voir si un lien inconnu entre migraine et striatium existe.

Si les liens entre astrophysique et Big Data vous intéressent

Le projet LSST (Large Synoptic Survey Telescope) ((http://www.lsst.org/lsst/)) est l’un des grands défis du Big Data. Ce centre d’observation, dont la mise en marche est prévue à l’horizon 2020, scrutera le ciel avec un appareil photo numérique de 3 200 Méga-pixels (ce qui en fait le plus puissant appareil photo numérique au monde). Chaque nuit, 30 Tera-bits de données seront créés et devront être analysés. L’enjeu ici est que l’ordinateur détecte tout seul des points de la galaxie qui pourraient intéresser les chercheurs. Cependant, une gestion en temps réel d’une aussi volumineuse quantité de données serait aujourd’hui impossible. Au-delà des améliorations technologiques, la gestion de ces énormes volumes passe par la diminution de leur nombre. La principale technique consiste à réduire la dimension du problème en trouvant des corrélations mathématiques entre différents paramètres physiques. Aussi, Un des enjeux du Big Data est de trouver de nouvelles méthodes pour que le nombre d’opérations à réaliser n’augmentent pas trop vite quand le volume de données s’amplifie.

Les volumes de données gérées par le projet LSST sont pourtant bien moindres que celles qui seront générées par le projet SKA (Square Kilometer Array) ((https://www.skatelescope.org/)) qui prévoit la construction du plus grand radiotélescope au monde avec environ mille antennes générant 100 peta-octets de données chaque jour.

Si vous voulez savoir comment le Big Data peut améliorer la sécurité aérienne

Des chercheurs de l’Université de Massachusetts ((Tim Oates: Identifying distinctive subsequences in multivariate time series by clustering, Computer Science Department, LGRC, University of Massachusetts.)) comparent les enregistrements des boîtes noires d’avions ayant eu un accident avec celles de vols n’ayant pas rencontrés de problèmes. En effet, la plupart des informations entre deux vols seront similaires : décollage, montée en altitude de croisière, manœuvres classiques … Ce qui est intéressant pour comprendre un crash aérien est ce qui ne ressemble pas aux autres vols. Analyser un très grand nombre d’enregistrement pourrait permettre de progresser dans la compréhension et la détection de pannes et incidents majeurs. On espère ainsi être capable de prévenir des accidents en reconnaissant en temps réel une série déviante, annonciatrice d’un problème plus ou moins imminent.

 

Lumière sur les données obscures

Le Big Data est donc une nouvelle approche pour trouver des corrélations nouvelles dans des vastes ensembles de données, qui décrivent, prédisent, ou diagnostiquent des évènements passés ou à venir, donnant des résultats porteurs d’un sens nouveau et générateurs de valeur.

Finalement, la difficulté pour définir les contours du Big Data ne viendrait-elle pas de l’approche elle-même, peu commune, où plutôt que d’utiliser une méthode pour trouver les résultats d’un problème, il s’agit, à l’opposé, de mettre en exergue des résultats qui dévoilent de nouvelles questions ? Comment s’assurer alors des besoins auxquels répond le Big Data, et comment garantir le retour sur investissement pour des entreprises devant l’incertitude de la valeur ajoutée ? La méthode elle-même ne serait-elle pas alors un frein à sa démocratisation?

One thought on “Le Big Data : simple évolution ou véritable révolution ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *