Laurent ROMARY, Directeur général de l’infrastructure européenne DARIAH, expose au Réseau PROSPER la problématique du cycle de vie des données en sciences humaines

La recherche en sciences humaines repose essentiellement sur l’étude de « traces » qui peuvent prendre de multiples formes : comportements, objets, manuscrits, productions artistiques… Pour chaque type de trace, les informations à consigner sont de nature différente, ce qui complique singulièrement le passage du bloc-notes traditionnel du chercheur à l’enregistrement numérique de données pertinentes et réutilisables.

Cette complexité explique l’importance accordée à cette question du passage au numérique dans les arts et humanités, avec les difficultés supplémentaires qui apparaissent dans le lien aux aspects patrimoniaux, notamment concernant les droits de reproduction numérique des objets ou manuscrits étudiés. Une structure européenne comme DARIAH a été créée pour accompagner les chercheurs et les institutions dans cette transition vers le numérique. Différents paliers de qualification des données sont présentés ici, en commençant par la qualification générique des jeux de données par le biais des hébergeurs, bien illustrée par le Data Seal of Approval. Pour la qualification par le biais des standards, la Text Encoding Initiative est aujourd’hui largement adoptée par le monde de la recherche. Enfin, la qualification des jeux de données par les chercheurs eux-mêmes est expérimentée selon un modèle inspiré d’Episciences. L’ouverture des données, notamment dans leur lien aux aspects patrimoniaux, nécessite de délicates négociations qui sont plus dans le champ politique que technique, conduisant DARIAH à promouvoir une charte sur la réutilisation des données. Enfin quelques perspectives sont évoquées, concernant l’exploitation et la fouille de données, à travers l’utilisation d’un outil comme GROBID, qui réencode et structure des données numérisées à plat, comme les documents pdf.

[ N.B. Cette restitution n'a pas encore été validée par ll'intervenant]

► La notion de « trace », essentielle en sciences humaines

La recherche en sciences humaines repose essentiellement sur l’étude de traces, qui peuvent prendre de multiples formes : liées à des émotions ou des comportements, à des artéfacts (par exemple étude des différents uniformes portés pendant la première guerre mondiale), à des productions artistiques, etc. L’absence de traces, les éléments lacunaires, correspondent aussi à un pan important des travaux en sciences humaines.

L'extrait du journal intime d’une personne qui a vécu à Berlin à la fin de l’année 1941, et qui parle de la situation qu’elle observe autour d’elle, permet de bien illustrer la démarche du chercheur face à une telle trace.

S’intéressant à une telle trace, le chercheur commence par la documenter : quelle est son origine, de quand date-t-elle, de quels matériaux est-elle constituée ? Puis vient la qualification de base : peut-on identifier l’auteur du document, quelle est sa valeur pour la recherche entreprise, quelle est son authenticité ? Puis débute la phase d’analyse : organisation générale du document, transcription, informations apportées par ce document (dates, lieux, événements…), qu’il s’agit de recouper avec d’autres sources pour les valider. Enfin vient l’étape de communication qui, grâce aux blogs alimentés au fil des projets, intervient plus vite aujourd’hui qu’à l’époque où les chercheurs attendaient des années afin d’avoir une matière suffisante pour éditer un ouvrage complet.

Au-delà de la publication des résultats des travaux, la publication des sources est un aspect assez courant dans un certain nombre de disciplines. Lorsque le chercheur mêle la source utilisée et le résultat de son travail dans un même ouvrage (ce qu’on trouve chez des éditeurs spécialisés comme Brill), cela crée un ensemble de difficultés liées à la gestion des droits, à la mise en contexte de la source, à la diffusion d’informations qui peuvent poser problème vis-à-vis de certains descendants de personnes citées, comme dans l’exemple ci-dessus.

La question est aujourd’hui de savoir comment on va pouvoir transposer au numérique toutes les étapes du travail de recherche. De grands programmes de numérisation ont vu le jour ces dernières années (BNF, Archives nationales…), qui mettent déjà à la disposition des chercheurs de grandes quantités de matériaux de nature et de complexité très variées : on peut dire que le Big Data est déjà une réalité, qu’il s’agisse de musicologie, d’histoire ou de littérature. On observe aussi un début de tradition d’« humanités numériques » à travers le développement, depuis une trentaine d’années, de méthodes de codage des informations associées aux documents. Des communautés très fortes ont vu le jour pour promouvoir le numérique, comme la Text Encoding Initiative en épigraphie et sciences médiévales. Néanmoins, il reste beaucoup à faire du côté des chercheurs, dont la plupart n’ont aucune acculturation numérique : ayant abandonné le bloc-notes, ils consignent leurs travaux dans des documents Word, mais ceux-ci restent sur leurs ordinateurs et seront tôt ou tard perdus (contrairement au papier), faisant disparaître la relation aux sources.

Les enjeux du passage au numérique dans les arts et humanités, notamment dans la perspective de mise en place d’une infrastructure européenne, sont multiples : localiser et héberger les sources de données disponibles, savoir les documenter au fur et à mesure et assurer la traçabilité vers les originaux, mettre en place des environnements de travail de plus en plus complexes pour permettre au chercheur de rendre sa relation au numérique transparente, assurer des collaborations multidisciplinaires avec les sciences du numérique pour progresser dans les outils et méthodes de recherche, et bien sûr accompagner la communauté de recherche dans cette phase transitoire de changement de paradigmes.

L’exemple du projet Berliner Intellectuelle, financé par la DFG (équivalent allemand de l’ANR) illustre bien tout ce travail vers l’édition numérique des sources. Il a consisté à recueillir, dans de multiples fonds documentaires en Allemagne et aussi en France, des manuscrits et échanges épistolaires du monde intellectuel berlinois du début du 19^e siècle, puis à faire travailler des bataillons d’étudiants pour les transcrire entièrement sous une forme normalisée, en proposant différentes lectures pour chaque manuscrit : forme lisible, forme dite diplomatique (avec relevé de l’ensemble des interventions faites sur le texte : ratures, corrections…), et source XML pour permettre à d’autres chercheurs d’aller au-delà.

Dans le cadre d’une réflexion prospective, quelques aspects saillants de cette évolution vers le numérique sont à noter. Tout d’abord, l’accessibilité numérique et la traçabilité vers les originaux renforcent le lien patrimonial. Mais la qualité du travail devient essentielle, pour assurer la fidélité aux sources : la transcription d’un manuscrit comme le Sandmann de Hoffmann a requis le travail d’une thésarde pendant plusieurs mois. L’intérêt du numérique est alors de permettre un travail cumulatif, ce qui nécessite néanmoins de respecter des règles de codage partagées, ce que la communauté a compris très tôt.

► Des infrastructures européennes pour les sciences humaines

Les idées exprimées ci-avant constituent le cadre dans lequel a été mise en place l’infrastructure européenne DARIAH. En particulier, on s’est interrogé sur les briques numériques qu’il fallait fournir au chercheur pour faciliter son basculement vers le numérique. La formation est aussi un aspect essentiel pour donner l’autonomie nécessaire aux chercheurs. Une attention particulière est aussi accordée aux doctorants, de manière à ce qu’ils maîtrisent parfaitement toutes les règles de codage et abandonnent le travail sur Word, pour éviter le « trou noir » de la perte des données pendant la phase transitoire entre le papier et les travaux en ligne. Enfin il s’agit de collecter et valoriser, dans un mouvement bottom-up, la grande richesse et variété des expériences de terrain. Dans cet esprit, le BMBF vient de décider de financer des services, alors que jusqu’alors seuls des projets de recherche étaient financés, dont l’expérience pouvait se perdre lors de la dispersion des équipes en fin de projet.

Mettre en place une structure comme DARIAH prend beaucoup de temps : près de dix ans se sont écoulés entre la réunion fondatrice en 2006 et sa capacité fédératrice actuelle. Il faut notamment savoir gérer les différences entre des pays très avancés en termes d’humanités numériques et d’autres qui le sont moins, pour des questions de ressources ou par conservatisme culturel. Il faut aussi assurer le lien avec d’autres structures internationales engagées notamment dans l’élaboration de règles pour le numérique. Il faut aussi favoriser l’information de la communauté (et singulièrement des étudiants), par exemple en signalant toutes les formations en méthodes numériques existant dans les différents pays.

► Qualification

Qualification générique des jeux de données par le biais de leurs hébergeurs

En matière de qualification, de multiples paliers existent. Le premier abordé ici concerne la qualification générique des jeux de données par le biais de leurs hébergeurs, bien illustrée par le Data Seal of Approval, initiative de Data archiving and network services (DANS). Cette importante structure néerlandaise de services a vocation à couvrir tous les domaines des sciences humaines et sociales, des données économiques aux données géographiques en passant par les données littéraires.

Une difficulté rencontrée très tôt par cet hébergeur de données a été de pouvoir comparer ses jeux de données à ceux d’autres hébergeurs. Il a donc proposé le Data Seal of Approval, un mécanisme d’auto-évaluation sur un ensemble de critères, conduisant à un rapport d’auto-évaluation qui lui-même est alors examiné et validé par un comité d’experts. L’objectif est de donner confiance aux producteurs de données, ainsi qu’aux financeurs et aux consommateurs de données, pour qu’ils se tournent préférentiellement vers des hébergeurs qualifiés.

S’inscrire dans ce dispositif impose forcément aussi un certain nombre de contraintes aux producteurs de données, ce qui in fine conduit à un cercle vertueux, même si les directives restent encore assez vagues à ce stade : donner des informations suffisantes pour garantir à des tiers la qualité des données, utiliser les formats préconisés par l’hébergeur, joindre les métadonnées requises par l’hébergeur.

Dans les prérequis qui concernent l’hébergeur, le premier rappelle qu’il est investi d’une mission explicite en matière d’archivage et de mise à disposition de données issues de la recherche. L’hébergeur doit aussi s’assurer que les données hébergées respectent les lois, règles et dispositions contractuelles dans les différents pays. Ses processus d’ingestion, de redistribution et d’archivage à long terme doivent être documentés. D’autres prérequis s’intéressent de manière plus fine à des aspects comme la préservation à long terme, l’accès et la disponibilité des données, la garantie d’intégrité des données (pas de fractionnement des jeux de données), l’utilisation d’identifiants pérennes pouvant être cités dans des publications, l’engagement d’une maintenance technique appropriée, etc.

Concernant le consommateur, le guide indique aussi quelques règles, dont notamment qu’il doit respecter les conditions d’utilisation associées aux jeux de données.

Au total, ce sont donc 16 guidelines qui constituent un ensemble homogène de recommandations pour faire un réel saut en matière d’hébergement de données issues de la recherche, auquel ont déjà souscrit 70 hébergeurs européens, mais aussi australiens et américains.

L’engouement pour ce dispositif est tel que DANS a été amené à transformer le Data Seal of Approval en CoreTrustSeal pour devenir un vrai organisme de certification, capable de faire face à la demande, avec un modèle économique basé sur le financement par les demandeurs.

Que les sciences humaines aient été un précurseur dans ce domaine surprend parfois, mais c’est au fond tout à fait compréhensible. En effet, les données dans ce champ de recherche sont beaucoup plus variées et complexes que dans un domaine comme la physique fondamentale. Le CERN par exemple produit d’énormes quantités de données dont la gestion est lourde, mais ce sont des données très homogènes. A l’inverse, quasiment chaque type d’artéfact observé en sciences humaines produit un jeu de données nécessitant un standard particulier.

Qualification par le biais de standards : la « Text Encoding Initiative »

En novembre 1987, un groupe de responsables de grandes bases de données textuelles se réunissent à New York, pour jeter les bases d’un standard commun pour encoder les documents dans le cadre des grands projets de numérisation qui ont vu le jour dans différents pays. Ils prennent la décision d’utiliser SGML (ancêtre de HTML puis XML), norme qui vient d’être publiée sur la base d’un travail fait dans des grands groupes industriels (Xerox, IBM…) pour rédiger leurs documents techniques.

La TEI propose un vocabulaire pour faire en numérique ce que l’on faisait « à l’ancienne » jusqu’alors : la transcription, l’identification des lignes, la possibilité de formes alternatives dans la transcription et éventuellement la traduction en langue plus contemporaine ou l’analyse de la glose. 600 éléments sont disponibles, organisés en un module dictionnaire, un module de transcription manuscrite, etc.

Un des points essentiels, dès la conception de la TEI en 1987, est de débuter tout document électronique par un en-tête avec les métadonnées sur la source, les acteurs du projet, etc. mais aussi la diffusion (licence d’utilisation/diffusion associée à ce document électronique) et les versions successives.

La TEI peut aussi être utilisée pour représenter des articles scientifiques, avec toute la finesse requise dans l’en-tête pour indiquer les auteurs, leurs affiliations… C’est l’utilisation de la TEI qui permet par exemple aujourd’hui, quand on introduit un article dans HAL, d’extraire automatiquement l’auteur, le résumé, les mots clés, et de préremplir le formulaire (et depuis très peu de temps, HAL fait aussi l’extraction de la bibliographie).

TEI est un consortium de normalisation extrêmement stable, financé par souscription d’individus et d’organismes pour permettre le travail du Conseil technique qui actualise la TEI deux fois par an. La reconnaissance de la TEI comme standard pour tout projet numérique en sciences humaines s’est traduite par l’obtention du prix Zampoli à la conférence DH de cette année. L’usage de la TEI est recommandé par la DFG, l’ANR, le NEH. HAL, Istex, OpenEdition ou encore Persée utilisent la TEI, le back-office de l’OEB (Office européen des brevets) aussi pour gérer un corpus gigantesque de 200 millions de documents avec 2 milliards d’annotations. L’interopérabilité qui en résulte est montrée par cette illustration : deux cent entrées INRIA dans HAL ont servi de documents X pour rejeter des demandes de brevets à l’OEB.

Néanmoins, beaucoup de travail reste encore à faire, ne serait-ce qu’en direction des jeunes pour qui l’utilisation d’une chaîne normalisée de traitement ne va pas encore de soi. Les chercheurs sont aussi pris en tenaille entre les efforts à faire pour produire des données « propres » et la pression pour publier le plus vite possible. Une autre difficulté provient du fait que, si le monde de la recherche utilise la TEI, les bibliothèques et les archives parlent d’autres langues (MARC, DC, FRBR pour les premières, EAD, EAC ou EAG pour les secondes). L’interfaçage entre ces différents protocoles pose de réels problèmes, car la façon de voir les objets est très différente.

Qualification par les chercheurs eux-mêmes

C’est de la réflexion autour d’Episciences qu’est née l’idée d’une transposition aux jeux de données déposés chez les hébergeurs. Episciences propose une plateforme permettant aux auteurs de déposer leurs manuscrits dans une archive ouverte (HAL ou autre), et de les voir examiner en parallèle par les comités éditoriaux d’épi-journaux qui peuvent les retenir pour publication, avec ou sans transformations, avec le sceau de leurs journaux.

L’idée, expérimentée à l’occasion d’une école d’hiver organisée par DARIAH, a consisté à définir ce que serait un « Data-journal » dans lequel, de manière analogue aux articles, on construirait au-dessus des jeux de données une grille de relecture et de certification par les pairs (ici la réflexion sur le découplage entre publication et certification fait complètement sens). Une plateforme d’expérimentation a été montée par le CCSD à cette occasion, branchée sur deux fonds français : Ortolang (Equipex sur les données linguistiques) et Nakala (fond de données du projet Huma-Num).

Un certain nombre d’enseignements ont été tirés de cette expérimentation. Le premier est que cela ne bloquait pas les chercheurs par rapport à la publication des données. Par ailleurs, le simple fait d’avoir la perspective de voir ses données évaluées par les pairs a, au cours de l’expérimentation menée, incité les plus réticents à déposer leurs données pour disposer de la reconnaissance et de la visibilité apportées.

Une idée d’implémentation, actuellement poursuivie avec un médiéviste, consiste à créer un journal sur les pratiques de l’écrit entre l’an 300 et l’an 1800, qui existerait à la fois sous forme traditionnelle avec des articles sur des travaux de recherche, mais aussi avec des articles courts couplés à des jeux de données. Le Comité éditorial est en train de travailler sur des grilles très précises pour définir les critères qui permettront de certifier des fonds de cette nature.

Toutes ces explorations débouchent sur trois réflexions. La première concerne le rôle de la relecture par les pairs. Dans le monde numérique, elle devrait avoir essentiellement pour but de qualifier, et non de sélectionner. La sélection était apparue il y a un demi-siècle, lorsque le nombre de soumissions d’articles a nécessité des choix pour les revues papier. La seconde réflexion, portant sur l’intérêt du découplage entre publication et certification, a déjà été évoquée : il est essentiel de garantir la diffusion des contenus avant tout. Enfin la troisième porte sur la place de l’auteur : de nombreux acteurs sont impliqués dans la production d’un jeu de données, depuis ceux qui ont collecté les données élémentaires jusqu’à ceux qui ont piloté le projet, en passant par les techniciens sollicités pour mettre en place l’infrastructure ou construire les interfaces d’accès aux données. Il va falloir distinguer toutes ces catégories d’auteurs lorsqu’il s’agira de certifier ou qualifier des jeux de données.

► Ouverture

La question de l’ouverture des données en sciences humaines est particulièrement difficile à aborder. En 2012, l’association historique américaine publiait la déclaration ci-contre (inchangée depuis), qui recommande aux nouveaux docteurs de surtout ne pas mettre leurs thèses en ligne avant six ans, de façon à permettre aux éditeurs d’en faire des livres (pour ainsi préserver le business model des éditeurs). On part donc de loin dans ce domaine…

DARIAH est très impliqué sur ce sujet du développement de l’Open Science en sciences humaines, par des recommandations aux auteurs et des actions de formation. Une charte sur la réutilisation de données est aussi en préparation, au positionnement délicat entre recherche et gestion patrimoniale, de façon à fluidifier cette réutilisation. En effet, aujourd’hui encore, négocier le droit de photographier des documents d’archives pour pouvoir travailler dessus prend énormément de temps : à l’Institut Max Planck de Berlin, il y a une personne à mi-temps dont tout le travail consiste à négocier le droit de reproduire des manuscrits conservés dans des fonds du monde entier, avant que les chercheurs ne prennent leur billet d’avion pour se rendre sur place.

L’idée de la charte de réutilisation des données est de se mettre d’accord sur un Mission Statement qui définit six grands principes. Le premier d’entre eux est la réciprocité : le point d’accord entre organisations patrimoniales et organisations de recherche porte sur l’obligation, pour le chercheur, de faire retour de ses avancées vers la structure patrimoniale qui lui a donné accès à son objet d’étude. L’objectif est d’arriver à une plateforme en ligne, où le chercheur commence par observer les contraintes exprimées par l’archive qui l’intéresse, les accepte en signant électroniquement, puis peut se rendre sur place muni de l’accord signé des deux parties.

► Exploitation – Fouille de données

Pour valoriser tout ce que va permettre la normalisation de l’encodage et l’ouverture des jeux de données, il y a une forte demande pour des outils de base d’hébergement, de visualisation, etc. Il y a aussi une forte demande d’outils permettant de générer automatiquement les données structurées associées à un objet d’étude.

GROBID est un outil conçu en 2015 dans ce sens. Il est capable d’analyser un document pdf, qui est un texte à plat dont la seule organisation est spatiale, pour en extraire des données structurées. Ainsi c’est GROBID qui, utilisé dans HAL, permet d’extraire, coder au format TEI et afficher automatiquement les métadonnées des articles introduits en pdf.

Ce puissant outil ouvre de nouvelles perspectives dans le champ de la numérisation du patrimoine. Une des premières applications concerne l’encodage de générations de dictionnaires papier, chaque article ainsi codifié devenant la brique élémentaire d’un réseau lexical qui pourra être exploité dans le temps, dans une approche multilinguiste, etc. L’application aux dictionnaires étymologiques – entre autres – va ainsi ouvrir des possibilités d’études nouvelles passionnantes.

Outils personnels

Sections

Laurent ROMARY, Directeur général de l’infrastructure européenne DARIAH, expose au Réseau PROSPER la problématique du cycle de vie des données en sciences humaines

[ N.B. Cette restitution n'a pas encore été validée par ll'intervenant]