Aller au contenu. | Aller à la navigation

Outils personnels
Se connecter
Sections
Vous êtes ici : Accueil Toutes les actualités Une séance exceptionnelle du Réseau PROSPER sur "Big-Data et recherche", avec des interventions de haut niveau d'IBM, de la DGA et de l'université Paris-8

Une séance exceptionnelle du Réseau PROSPER sur "Big-Data et recherche", avec des interventions de haut niveau d'IBM, de la DGA et de l'université Paris-8

Cette réunion du Réseau PROSPER avait pour objectif d’amorcer des échanges sur un sujet d’avenir complexe, qui impacte la recherche à tous niveaux : nature du métier, activités au quotidien, interfaces et interactivités... Des regards croisés ont été portés par les invités du Réseau PROSPER : Jean-Marc MEUNIER, Vice-Président en charge du numérique de l’Université Paris 8, Josiane GAIN, Directrice des Relations Universitaires d'IBM France, Patrice POIRAUD, Directeur Big-data & Analytics d’IBM France et Philippe LEMERCIER, de la Direction du Développement International de la DGA. Des aspects essentiels des différentes présentations sont repris ici.

 

Big-data, données de recherche, conservation et partage,

par Jean-Marc MEUNIER, Vice-Président en charge du numérique, Université Paris 8.

La question du Big-data est approchée ici sous l’angle des sciences humaines, pour lesquelles trois enjeux sociétaux majeurs apparaissent, portant sur l’identité numérique, la production de la connaissance et le rapport au travail.

Les questionnements en matière d’identité numérique sont bien connus, et portent sur la numérisation des données personnelles, l’émergence des réseaux sociaux et d’une manière générale la protection de la vie privée.

En matière de production de connaissances, au-delà de ce que permettent les nouvelles technologies du web (enquêtes de masse, web tracking), une question intéressante est soulevée par la qualification des sources qui organisent des connaissances construites de façon collaborative, comme peut le faire Wikipedia. L’accès par internet à de multiples sources constituant des corpus ouverts, avec des informations non structurées, constitue aussi un changement à prendre en compte.

Enfin, le développement du numérique a aussi un impact direct sur la vie professionnelle des individus, par l’affaiblissement de la frontière entre vie professionnelle et vie privée, avec des modes de partage des connaissances qui privilégient la communication transversale et la coopétition. On observe aussi l’émergence de métiers très nouveaux dans le champ des sciences humaines, dans la communication mais aussi dans les domaines artistiques.

C’est le phénoménal accroissement des données qui a permis l’émergence du Big-data. Cet accroissement des données relève de trois causes principales. La première correspond à la numérisation massive du monde (production d’archives ouvertes, Google books, informatique de gestion, Open-data, livres augmentés, multimédia…). La seconde raison est le fort développement de l’activité sur le réseau avec le web 2.0, qui permet le commerce en ligne, le crowdsourcing et la multiplication des communications publiques et privées via les réseaux sociaux. Enfin, la troisième cause est d’ordre matériel, avec la multiplication des dispositifs de saisie (terminaux mobiles, objets connectés…).

Ce que l’on nomme Big-data résulte de la convergence de ces différentes sources de données. On peut ainsi, par exemple, croiser aujourd’hui les informations qui proviennent des réseaux sociaux avec d’autres, issus d’objets connectés, d’internet, de données publiques ou privées, etc.

L’utilisation de toutes ces données soulève trois types de questions. En matière d’accès se posent les questions de pérennisation des données, de format, de support, d’indexation et de droit d’accès. Puis se pose la question du sens : dans le domaine des SHS, certaines données sont recueillies au niveau de l’individu, d’autres recueillies ou élaborées au niveau de populations (ce qui n’a pas même sens), enfin il y a la propension à tout vouloir quantifier pour produire des chiffres dont la signification est parfois problématique. Enfin se pose la question du droit : droit à la vie privée, droit à l’oubli, croisement de données.

Pour comprendre comment les chercheurs des sciences humaines et sociales se sont saisi des possibilités ouvertes par le Big-data, le projet Huma-Num constitue une bonne illustration. Huma-Num est une très grande infrastructure (TGIR) pour la recherche en SHS portée par le CNRS, l'Université d'Aix-Marseille et le Campus Condorcet. Elle a pour mission de regrouper les acteurs des communautés de sciences humaines, de coordonner la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques), de développer un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Le dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié et d'une procédure d'archivage à long terme.

Une dizaine de consortiums se sont déjà constitués et ont été labellisés dans le cadre d’Huma-Num, dont l’énumération montre la diversité des champs concernés : Corpus d’auteurs pour les Humanités, Corpus oraux et multimodaux, Corpus écrits, Archives des ethnologues, Sources médiévales, Cartes et photographies pour les géographes, Archives des sciences sociales du politique, Archives des mondes contemporains, Musica, etc.

 

Numérique et Big-data, enjeux pour l’enseignement supérieur et la recherche,
par Josiane GAIN, Directrice des Relations Universitaires d'IBM France.

Josiane Gain rappelle que les Relations Universitaires au sein d’IBM sont rattachées à la direction Recherche au niveau mondial. Le soutien à la recherche par IBM n’est pas nouveau et remonte vers 1932. Avec le Big-data, IBM développe des nouveaux outils pour accélérer la recherche et l’enjeu est de savoir comment exploiter les nouvelles technologies de pointe, dont les applications ne concernent pas uniquement des secteurs comme la santé mais visent également la formation et l’éducation pour éviter notamment le décrochage scolaire. IBM s’intéresse de plus en plus au secteur éducation comme en témoigne la création récente du laboratoire Watson éducation en 2014 aux USA.

D’autres développements sont en cours avec des universités et plus particulièrement avec des « business schools » notamment françaises pour dispenser des formations 24h/24 et 7j/7 et s’adapter ainsi aux besoins et répondre à la montée en compétences des jeunes mais sans remplacer l’enseignement et l’interactivité avec le corps enseignant.

Il est à souligner que les métiers les plus prisés demain sont en lien avec le Big-data. La pénurie annoncée des ressources est très importante. A ce sujet HEC envisage de se développer pour répondre aux besoins futurs notamment en Business Analytics et Big data. La clef est l'emploi de demain dans ce domaine avec 4 grands nouveaux métiers-type : Data-architecte, Data-policier, Data-analyste, Chief-data-officer (avec de plus en plus de profils mixtes).

 

Avancées du Big-data & Analytics,
par Patrice POIRAUD, Directeur Big-data & Analytics d’IBM France.

Il est question ici du Big-data vu par un industriel très actif en recherche et développement. La définition du Big-data est assez vaste et il s’agit d’une nouvelle manière de traiter des grandes quantités de données, telles qu’on ne savait pas le faire auparavant. Ce nouveau champ peut être caractérisé par 4 aspects :

•      Volume de données de plus en plus important avec comme exemple l’entreprise Vestas (entreprise leader mondial dans l’éolien)  qui traite 16 pétaocets de données environnementales pour trouver le meilleur positionnement d'une éolienne, qui impacte directement la rentabilité...

•      Variété des données avec pour illustration la ville de Toulouse qui utilise l’analyse des données de réseaux sociaux Tweets, Blogues, Facebook, etc. en vue d’évaluer de manière ultra-rapide la perception des travaux et chantiers de la ville par les populations, en évitant ainsi des enquêtes de terrain généralement coûteuses. D’autres villes, comme Boston, exploitent le Big-data notamment pour l’identification des nids de poule dans les rues via les accéléromètres des smartphones des habitants.

•      Vélocité et travail en temps réel. Généralement les données sont recueillies puis stockées pour un usage ultérieur. La tendance actuelle est l’utilisation en temps réel, avec pour objectif de déclencher des actions immédiates, comme par exemple la détection de personnes suspectes ou encore le suivi de tout équipement d’un site industriel, pour éviter des risques ou optimiser les performances.

•      Véracité, de même que le contexte, qui déterminent le sens et réduisent ainsi les erreurs d’interprétation, car les données peuvent avoir beaucoup de sens différents, avec pour exemple la détection et le nombre de requêtes du terme « grippe » dans une ville, qui peut traduire aussi bien une épidémie qu’un congrès de médecins.

 

Comme exemple du Big-data, on peut citer la société Astron, qui déploie des moyens importants pour sonder les profondeurs de l'univers avec environ 3000 antennes, ce qui représente des quantités phénoménales de données. Les capacités des ordinateurs ne suffisent pas et, au-delà de la question de l’architecture des ordinateurs de demain, le besoin futur est de traiter un nombre de données par jour de l’ordre d’un exaoctet, soit l’équivalent de 2 fois le trafic internet quotidien.

Le Big-data est clairement un sujet prospectif qui va induire des transformations majeures. Pour un industriel comme IBM, la question est de savoir la valeur que l’on peut générer à partir de cette masse de données. Cette valeur, peut en effet être caractérisée selon 4 axes :

•      Descriptif (qui concerne le questionnement sur le quoi, pourquoi, comment...)

•      Prédictif (capacité de déduire de l’information de ce qui peut ou va arriver)

•      Prescriptif (pour déduire le meilleur choix et la stratégie)

•      Cognitif (comment faire évoluer l’environnement ?)

Pour illustrer le propos, on peut citer l’analyse de matchs de tennis, où le premier niveau consiste à décrire ce qui s’est passé. Le deuxième niveau prédictif pourrait être la compréhension des clés du match pour prédire le résultat à l’avance. En ce qui concerne le niveau prescriptif, il s’agit par exemple de trouver une stratégie de gagner contre tel ou tel joueur en identifiant les meilleurs coups et la meilleure stratégie de jeu. Le résultat est très fiable en général pour le tennis, qui reste un sport simple car à deux joueurs.
L’exercice est plus difficile pour d’autres sports comme le rugby, plus complexe avec 30 joueurs. Quant au niveau cognitif, on pourrait l’illustrer par l’usage des données CDR de téléphones (géolocalisation, lieux d’émissions et de réception d’appels, durées…) dans une ville comme Abidjan. L’exploitation et l’analyse des données de déplacements et d’appels des habitants et le croissement avec la carte de réseau de transports de bus et taxi, a permis d’identifier des positions optimales pour les emplacements des arrêts de bus afin de prendre en compte les zones d’échanges et de concentrations des usages.

Pour l’axe cognitif, on peut citer le développement réalisé par IBM en 2011 à l’occasion de son 100e anniversaire. Pour cet évènement, le défi lancé aux chercheurs était de développer un système intelligent, qui pourrait faire mieux que le système expert ayant gagné au jeu d’échec contre Kasparov. Dans ce cadre et en lien avec le fameux jeu télévisé « Jeopardy », IBM a développé un super ordinateur, Watson, capable notamment de trouver les questions à une série de réponses en moins de 3 secondes tout en acceptant de parier sur la qualité de réponses. Avec des paris à la clef, l’ordinateur s’assure de la véracité des réponses fournies.

A l’issue de ce développement, qui a permis la mise à jour de l'intelligence cognitive appelée autrefois intelligence artificielle, IBM a collaboré avec WellPoint, grande entreprise américaine d'assurance maladie, qui s'intéressait à un problème aux USA de décès de cancer de 45.000 à 100.000 personnes par an, en raison d'un diagnostic initial non adapté. Dans ce cadre, IBM a apporté la solution, en faisant évoluer son système Watson pour prendre en compte et comprendre des publications scientifiques et les paramètres des dossiers des patients. Interrogé en langage naturel, Watson propose une approche thérapeutique et aide le médecin à prendre une décision, en orientant celui-ci vers les éléments les plus importants du dossier du patient. Il suggère des traitements en indiquant un niveau de fiabilité et de confiance, la machine tient même compte des préférences des patients (patiente ne souhaitant pas perdre ses chevaux par ex.). Watson est utilisé actuellement par plusieurs hôpitaux aux Etats-Unis sur le cancer, et le taux de succès du système est assez important (capacité de reconnaissance des cancers de la peau approchant les 95%).

D’autres applications prometteuses concernent le secteur de la relation client, secteur rencontrant de plus en plus des difficultés avec la multiplication des sites web et l’incertitude des informations associées. Des agents cognitifs sont de plus en plus développés pour apporter des réponses à des questions très complexes.  Les agents cognitifs se parlent entre eux et se coordonnent pour une réponse globale aux usagers.

 

Big-data, les biais inhérents aux outils et aux usages versus opportunités en matière d’intelligence économique et en recherche, par Philippe LEMERCIER, Direction du Développement International de la DGA.

Le Big-data n’est pas quelque chose de fondamentalement nouveau, mais plutôt le passage à très grande échelle de pratiques qui existaient déjà. La massification des données n’est pas un problème en soi, c’est l’usage qui en est fait qui pose problème. En particulier, il y a tout le volet de prédictibilité du phénomène Big-data, qui renvoie à une version moderne du mythe de Prométhée, à l’idée que l’on va « faire parler les données » sans que l’on ait besoin de modèle, de catégories…

Une des menaces de systèmes de prévision sans experts, c’est de produire un résultat dans tous les cas, même sur des problèmes qui n’ont pas de solution ou dans des champs qui ne s’y prêtent pas. Le risque de décision non fondée ou mal fondée est donc réel. Dans ce domaine des systèmes prédictifs, les Etats-Unis ont un leadership incontesté.

Bien sûr, il existe des champs d’application où le Big-data présente une réelle opportunité, comme dans le marketing. Par ailleurs, une utilisation intelligente du Big-data peut générer des hypothèses de travail, ouvrir des pistes dans de nombreux domaines (par exemple le renseignement), pour peu qu’on le considère comme un outil suggestif et non prédictif.

On peut définir en quelques traits une théorie sous-jacente au Big-data. Tout d’abord, il faut que la corrélation ait un sens. Ceci suppose que le problème est modélisable, qu’il existe des variables et que ces variables sont accessibles. Il faut aussi que les mesures aient un sens, avec des capteurs fiables branchés sur des sources fiables. Enfin, il faut rester dans un domaine où les enjeux des décisions prises directement sont limités. Il ne s’agit pas de fonder la géostratégie sur le Big-data, mais le Big-data peut être utile au marketing ou à l’élaboration de modèles scientifiques.

En vue du traitement heuristique de l’information à des fins de recherche et de prospective, il faut porter un regard critique sur les biais issus à la fois de la sélection et du traitement de l’information. Ainsi, deux moteurs de recherche différents ne font pas remonter la même information, même avec une requête strictement identique. Par ailleurs, la manière dont des informations existantes remontent diffère dans le temps. Il y a des documents qui ne remontent pas pour des raisons technologiques (langue de recherche par exemple) ou par un détournement malicieux d’usage qui les rend non indexables (par exemple multiples changements de langue à l’intérieur d’un même document).

De même, lorsqu’on aborde le traitement des informations collectées, de multiples biais peuvent apparaître parce qu’aucun traitement n’est neutre, ni aucune forme de visualisation du résultat de ce traitement. La production d’images, tant prisées des décideurs, peut conduire à générer un sens dans l’esprit de ceux qui les regardent, qui n’a rien à voir avec ce qu’apportent les différents éléments qui les composent.

Il y a donc là un vrai sujet de réflexion pour la recherche, dans une approche transdisciplinaire : comment peut-on faire, pour utiliser tous les apports positifs du Big-data en minimisant tous les biais pour augmenter l’objectivité des outils, des algorithmes, des usages… ? Comment définir des métriques, comme on l’a fait dans le domaine des traductions ou transcriptions, pour pouvoir évaluer les outils de recherche d’information, caractériser leurs défauts algorithmiques ou leurs biais de représentation ou d’induction de sens ? Un tel travail est fondamental au sein d’une communauté nationale, afin de disposer de bons outils dans la compétition mondiale, notamment lorsqu’il s’agit de développer l’intelligence économique.