Marin DACOS, Conseiller pour la science ouverte auprès du Directeur général de la recherche et de l’innovation (MESRI), présente au Réseau PROSPER quelques perspectives en matière de science ouverte

Au-delà de l’obligation de diffuser les résultats des recherches financées par les deniers publics, la science ouverte présente de multiples intérêts, à la fois dans le champ de la valorisation économique et dans celui de la conservation des acquis. En 2016, l’ « Amsterdam call for action on open science » a été le déclencheur d’un certain nombre de plans gouvernementaux pour accélérer la transition vers la science ouverte.

En France, la Loi numérique, qui instaure l’accès ouvert par défaut aux données administratives, concerne aussi les données de la recherche. Pour mieux se préparer à cette obligation d’ouverture, les pouvoirs publics français viennent de créer un Comité pour la science ouverte, outil de coordination pour conduire ce changement. Proposer un format unique pour la gestion des données de la recherche étant utopique, une orientation vers autant d’infrastructures de données que de champs disciplinaires requérant des formats particuliers est envisagée. La question de la conservation de la souveraineté scientifique est aussi à prendre à bras le corps par les institutions, pour éviter que de gros acteurs oligopolistiques ne mettent la main sur les données comme ils ont mis la main sur les revues scientifiques. Enfin, une administration des données cohérente est en train de se construire en France sous l’impulsion d’un Administrateur général des données, et devrait conduire le Ministère de la recherche à se doter spécifiquement d’un administrateur des données de la recherche, animant un réseau d’administrateurs des données des établissements de recherche. Diverses actions de structuration, encouragement et formation devraient accompagner cette politique de transition. La France est aussi attentive à articuler ses actions avec le niveau européen, et être moteur dans des projets comme GOFAIR qui vise à aller plus vite que le projet communautaire EOSC, dans le cadre d’un « internet of fair data and services ». Au-delà de l’horizon de visibilité actuelle, on peut espérer que la science ouverte ouvrira de nouvelles perspectives au Big Data, tout en conservant un regard critique sur l’usage de « données » qui sont en réalité des « construits » porteurs d’une histoire.

[ N.B. il s'agit ici d'une retranscription qui n'a pas encore été validée par l'intervenant]

► La science ouverte, de multiples avantages

Au-delà de l’argument de principe, résumé par la formule « Public Money ? Public Data ! », la science ouverte présente de nombreux intérêts. Le premier est de multiplier l’impact, notamment par le croisement entre le Big et l’Open Data. Elle aide aussi à franchir le « dernier kilomètre », qui correspond à l’édition des résultats des travaux scientifiques, que l’on ne sait pas optimiser dans le cadre de la transition du papier au numérique, faute de remettre à plat la logistique de ce dernier kilomètre dans un nouveau contexte. L’ouverture répond aussi à un souci d’efficacité économique, car si 98% du financement est déjà dépensé pour la recherche elle-même, les 2% affectés à l’édition doivent donner un réel accès aux avancées produites, notamment pour les PME qui ne disposent pas des ressources qu’ont les grands groupes, pour aller chercher des résultats qui leur seraient utiles. L’ouverture permet aussi de diminuer la duplication des efforts par ignorance de ce qui a déjà été fait, et de construire plus efficacement une science cumulative. Enfin la science ouverte facilite le traitement des questions d’éthique, d’intégrité et de transparence.

L’ouverture constitue aussi une avancée (très importante, et qui n’avait pas été imaginée au départ) vis-à-vis des questions d’archivage, car on retrouve toujours quelque part des traces de ce qui a été produit, notamment lorsqu’il s’agit de faire face à l’insuffisance ou la défaillance des dispositifs censés assurer l’archivage. C’est un argument très fort aujourd’hui vis-à-vis des pouvoirs publics, pour éviter de coûteux investissements dans des systèmes d’archivage qui, de toute façon, montreront un jour ou l’autre leurs limites.

► La mise en mouvement : « Amsterdam call for action on Open Science» (2016)

Devant la lenteur des institutions publiques à s’inscrire dans des démarches de science ouverte, l’appel d’Amsterdam a réaffirmé que « la gestion et le partage des données doit devenir l’approche par défaut pour les recherches financées par le secteur public. Cela impose des définitions, des standards et des infrastructures ». Des recommandations portent aussi sur la fouille de données, qu’il s’agit de faciliter, notamment en réformant le cadre juridique du droit d’auteur.

Concrètement, cela signifie tout un ensemble d’actions à mettre en place, notamment concernant les DMPs (Data Management Plans), l’incitation à l’ouverture et la « FAIRisation », le principe d’ouverture par défaut (tout en prévoyant des dérogations), et l’accompagnement des chercheurs à la fois pour dépasser les injonctions contradictoires dont ils font l’objet vis-à-vis de l’ouverture et les former aux principes, méthodes et bonnes pratiques de la science ouverte.

Concernant les infrastructures, l’Appel d’Amsterdam vise à « harmoniser les pratiques en Europe et au-delà, et travailler à la construction d’un cloud européen de la science durablement financé (European Open Science Cloud – EOSC)». Ce projet étant lancé, il s’agit maintenant de faire en sorte qu’il puisse réussir malgré les difficultés que présente une telle entreprise.

Les Pays-Bas, qui sont à la pointe en matière de science ouverte, ont été les premiers à construire leur propre plan national. Le FNS en Suisse a aussi mis en place une politique assez forte sur les données ouvertes : les données de recherche doivent être libres d’accès pour chacun, tant pour la communauté scientifique que pour le public. Pour ce qui concerne la France, dès 2016 il a été décidé que « Les [95] infrastructures [nationales] de recherche devront à l’avenir être en mesure de mettre à disposition les données produites, soit immédiatement, soit après une période d’embargo correspondant aux pratiques internationales du domaine concerné ». L’Europe elle-même prend de plus en plus en compte la question des infrastructures numériques, même si on évalue encore trop souvent l’importance des infrastructures à travers le nombre de mètres cubes de béton à couler.

► Les implications de la Loi numérique pour la recherche

La loi numérique française instaure l’accès ouvert par défaut pour les données administratives. Or les données de la recherche sont considérées comme des données administratives. Sans aller à l’encontre des autres droits, comme le secret médical ou les données sous protection de la CNIL, il faut donc s’attendre à des demandes d’accès de différents acteurs de la société qui, s’ils n’obtiennent pas satisfaction directement, passeront par la Commission d'accès aux documents administratifs (CADA).

Il est bien clair que le monde de la recherche n’est pas prêt à répondre à ce type de demande pour l’ensemble des données qu’elle produit : une action coordonnée au niveau national apparaît nécessaire, pour ne pas se trouver face à des situations difficiles à gérer. Le premier principe de l’action publique va être de rassurer, en affirmant une volonté d’être aussi ouvert que possible, tout en étant aussi fermé que nécessaire. On sera ainsi dans une logique de gradients plutôt qu’une approche binaire ouvert/fermé. Pour cela, les 16 règles d’ouverture du modèle FAIR (« findable, accessible, interoperable, reusable ») proposent un cadre utile. Un Comité pour la science ouverte (COSO) vient d’être créé, composé d’experts (chercheurs, ingénieurs, documentalistes, opérateurs…) sous la présidence d’Alain Beretz, pour proposer des avis et orientations sur des questions de science ouverte évoluant très vite (vitesse du marché), ayant souvent une forte imbrication technique/ politique/ économique/ juridique, comme c’est le cas pour ORCID. Ces avis sont soumis à un Comité de pilotage politique, dans lequel sont représentés les établissements. C’est donc un outil de coordination des différents opérateurs et infrastructures. Dans cette phase de démarrage, quatre Collèges sont créés : publications, données de la recherche (dont code source), compétences, international, auxquels on va poser la même question : « Que faut-il faire pour que la recherche soit plus ouverte, plus durable, plus mutualisée, plus transparente et d'accès plus universel ? ». Cette structure prend la suite de la BSN (Bibliothèque scientifique numérique), qui avait par exemple produit DMP Opidor, instrument pour déclarer les Data Management Plans (DMPs).

► Retenir une approche disciplinaire pour la gestion des données

La question des données ne peut pas être traitée de façon universelle, il y a des spécificités disciplinaires à prendre en compte, Il est donc souhaitable d’aller vers des centres disciplinaires et thématiques de données. Il est aussi nécessaire de prendre en compte la « longue traîne » : à côté des 20% de domaines bien structurés, il y a 80% de domaines où il n’y a pas de bonnes pratiques établies en matière de gestion des données, où des données peuvent être perdues parce qu’elles étaient sur une clé USB qui est partie à la lessive dans la poche d’un pantalon…

Mettre en place une politique qui tienne compte de tous ces aspects soulève de multiples questions, à commencer par celle de la création, dans des délais raisonnables, d’autant d’infrastructures de données que de champs disciplinaires à traiter séparément. Une solution pourrait être de démarrer par un service générique et minimaliste de données, qui prennent en compte la longue traîne. Il s’agirait donc à ce stade de données tabulaires, un « Alpha Data » qui serait une sorte de « Zenodo des données tabulaires » permettant à des communautés peu habituées à l’exercice de verser leurs données de la longue traîne. Bien sûr, pendant ce temps, les communautés pourraient se structurer et stabiliser des états de l’art et des formats de données beaucoup plus structurés, qui dépassent deux dimensions de relations et de ce fait sont très spécifiques.

► Veiller à conserver la souveraineté scientifique

Proposer des outils et services permettant d’accéder et de valoriser ces masses de données constitue un marché potentiel énorme. Il convient donc d’être attentif, pour que ne se reproduise pas la situation des années 80-90, où quelques gros acteurs oligopolistiques de l’édition ont proposé à la communauté scientifique de s’occuper de ses revues (ce qui semblait une bonne idée au départ) et l’ont progressivement dépossédée : peu avertie des questions de propriété intellectuelle, la communauté scientifique a ainsi non seulement externalisé la réalisation éditoriale, mais aussi cédé la propriété des titres, en perdant ainsi le contrôle.

Une situation similaire apparaît pour les données : les chercheurs, persuadés qu’ils s’agit de leurs données et qu’ils ont à les gérer (alors que ce sont les données de leurs établissements) vont continuer à céder leurs données comme ils l’ont fait pour les revues, tant que les établissements ne vont pas prendre à bras le corps cette question.

► Mettre en place une administration des données

Pour gérer toutes ces questions, la France s’est dotée d’un Administrateur général des données (et pas que des données de la recherche), en la personne d’Henri Verdier (qui avait été invité le 14 juin par le Réseau PROSPER). La proposition d’Henri Verdier est que chaque ministère se dote d’un administrateur des données. Dans ce cadre, il serait souhaitable que le Ministère de la recherche se dote spécifiquement d’un administrateur des données de la recherche, et que celui-ci crée un réseau d’administrateurs des données de la recherche dans les établissements.

L’administrateur général des données est le pilote de l’implication de la France dans l’OGP (Open Government Partnership) : une cinquantaine d’Etats s’engage sur des actions concrètes, tous les deux ans, pour accentuer la transparence de l’action publique. Dans ce cadre, le Ministère de la recherche a en charge une action dédiée destinée à « construire un écosystème de la science ouverte » (engagement 14), avec une feuille de route en onze points, dont la création d’un Comité pour la science ouverte, l’adhésion nationale à ORCID et trois actions plus spécifiquement orientées vers les chercheurs pour les sensibiliser aux implications de la loi numérique, les inciter au développement de plans de gestion de données et à la publication systématique des données associées à leurs travaux.

Pour conduire ce changement, trois axes d’action : structurer, encourager, et bien sûr former. La structuration va passer par des DMP recommandés, voire obligatoires, s’appliquant aux projets, mais aussi aux établissements ; il faudra aussi labelliser les entrepôts et les soutenir. Côté encouragement, on pourra par exemple valoriser spécifiquement des papiers enrichis par des données ou utiliser des mécanismes incitatifs de type « nudge ». Enfin, la formation est essentielle pour faire évoluer les comportements ; des lieux privilégiés pour cela sont les Ecoles doctorales (qui permettent d’être spécifiques des domaines concernés), on peut aussi s’appuyer sur le réseau des URFIST, voire imaginer de créer des « auto-écoles des données de la recherche » sur la base de normes établies par la communauté, et proposant des certifications.

► Administration internationale

Ce vaste et important sujet n’est pas abordé ici faute de temps. Un aspect mérite néanmoins d’en être souligné : la ministre de la recherche a souhaité que la France rejoigne le projet GOFAIR en tant que co-fondatrice. L’idée directrice est d’aller plus vite que le projet européen EOSC, freiné par les mécanismes du fonctionnement bruxellois, en faisant directement appel à des « implementation networks » où les utilisateurs proposent au fil de l’eau des solutions simples aux besoins qu’ils rencontrent, les améliorent de façon collaborative au sein de la communauté puis les stabilisent (un peu à l’image de la manière dont s’est développée la première couche d’internet dans les années 80), le tout dans le cadre d’un « internet of fair data and services ».

► Quid de 2040 ?

Au-delà de ce qui est déjà visible aujourd’hui, on peut s’interroger – et c’est particulièrement nécessaire dans le cadre d’un exercice comme celui entrepris par le Réseau PROSPER – sur ce qui pourrait advenir en 2040, tant dans un registre positif que négatif.

Le rêve pour 2040, c’est le développement des appariements pour comprendre des systèmes très complexes (la ville, par exemple), la réutilisation des données à moindre coût d’un domaine de recherche à l’autre, l’investissement dans les grandes données plutôt que dans les poussières de recherches (vers un synchrotron des données, un grand « Data Telescope »), voire la construction d’une « machine à remonter le temps », une « Time Machine» qui permettra de naviguer dans le passé après avoir numérisé toutes les archives.

A l’inverse, le risque pour 2040, c’est de concentrer les moyens sur des éléphants blancs qui assècheraient toute diversité – donc potentiellement toute créativité –, ou encore d’oublier que les données sont construites, et pas « données » : elles sont produites à un moment précis, dans un cadre particulier, et sont porteuses de ce contexte. Ainsi quand Google a apparié les données d’une grande base de données numériques achetée au Brésil, il a oublié la convention de ses créateurs qui consistait à attribuer l’année de publication 1899 à tous les documents non datés, qu’il s’agisse de l’ouvrage « La condition humaine » ou du tube « Yellow submarine »… Une telle méprise prête évidemment à sourire, mais qu’en sera-t-il sur des sujets plus sérieux, surtout si les résultats sortent d’une « boîte noire » insondable ?

Plus que jamais, le scientifique devra donc développer son esprit critique, et abandonner toute tentation de positivisme. Il faudra aussi promouvoir des « artisans de la donnée », qui gardent le contact avec ce que représentent réellement les données manipulées.

Outils personnels

Sections

Marin DACOS, Conseiller pour la science ouverte auprès du Directeur général de la recherche et de l’innovation (MESRI), présente au Réseau PROSPER quelques perspectives en matière de science ouverte

[ N.B. il s'agit ici d'une retranscription qui n'a pas encore été validée par l'intervenant]