Les chercheurs, des mineurs de fond

Si nous attendons, « alors on est mort ! », a lancé Thierry Mandon, ­secrétaire d’Etat à l’enseignement ­supérieur et à la recherche, en clôture, le 6 avril, d’un colloque sur la diffusion des savoirs par le numérique. Quelle menace plane donc sur la recherche française ? La crainte d’entraves à sa liberté par des restrictions sur des outils récents : la fouille de textes et de données (FTD). Ces techniques, dont l’essor est lié à la numérisation des documents, permettent d’explorer de vastes corpus afin d’en extraire automatiquement des informations. Par exemple, fouiller une base de données de gènes pour étudier leurs re­lations. Ou plonger dans un catalogue astro­nomique pour comparer différents objets… Rien de bien neuf ou de problématique.

Mais la FTD est aussi une nouvelle manière de lire la documentation scientifique constituée par les millions d’articles écrits et publiés par les chercheurs. « L’un des buts est de produire de nouvelles connaissances par ces explorations », résume Marin Dacos, directeur du Centre pour l’édition électronique, un éditeur public de ressources en sciences humaines et sociales. « C’est comme passer de la lunette au télescope pour un astronome. Cela permet de voir mieux et plus loin », ajoute Renaud Fabre, directeur de l’Information scientifique et technique du CNRS.

Ainsi des chercheurs génèrent automatiquement des « cartes » des collaborations entre scientifiques ou entre pays, détectent des domaines émergents, étudient les liens entre disciplines… En biologie, on repère, dans le texte des articles, des gènes ou des protéines, et des associations inédites entre eux. D’autres encore étudient la progression du « data mining », le nom anglais de la FTD, dans la littérature de recherche… « Nous avons aussi besoin de corpus pour tester nos outils de fouille de données, par exemple pour qualifier automatiquement la polarité d’un texte, neutre, positif, négatif… », complète Marin Dacos.

« Projet de loi “République numérique” »

C’est là que le bât blesse car pour ces ­ « expériences », les chercheurs doivent bien souvent télécharger les documents pour y appliquer leurs algorithmes. Autrement dit, copier des œuvres qui ne leur appartiennent pas, violant ainsi le droit d’auteur et le copyright des éditeurs. «  La France et l’Europe sont en retard sur ces questions législatives par rapport aux Etats-Unis, au Japon, au Canada, qui autorisent, pour leurs chercheurs, ces fouilles de textes », note Renaud Fabre.

D’où la bataille actuelle autour de l’article 18 bis du projet de loi « République numérique ». Cet amendement, contre l’avis du ­gouvernement, a été ajouté par les députés le 18 janvier. Il autorise « les copies ou reproductions numériques (…) en vue de l’exploration de textes et de données pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale ». Mais le gouvernement craint l’incompatibilité avec la révision d’une directive européenne de 2001 sur le droit d’auteur, toujours en débat. Le Sénat a opté, en commission, pour une formulation privilégiant des contrats entre éditeurs et organismes de recherche. De telles solutions existent déjà. L’un des plus grands éditeurs, Elsevier, explique au Monde que l’accord avec la France ­ « inclut une clause permettant aux chercheurs publics de faire du text and data mining, sans coût additionnel ». Mais les chercheurs ­regrettent certaines contraintes du contrat.

A l’inverse, « il n’est pas nécessaire d’ajouter une exception ! », proteste François Gèze, ­président du Cairn, un portail de revues scientifiques, et porte-parole sur cette question du Syndicat national de l’édition. « On ­pourrait travailler à des solutions techniques répondant aux besoins des chercheurs », ­ajoute-t-il, en précisant que les demandes sont faibles, selon lui. Une idée serait ­d’héberger ­des « copies » techniques chez un tiers et en réserver l’accès aux chercheurs.

En même temps, un Livre blanc d’acteurs de la recherche plaide pour autoriser la FTD par une simple modification du code de la recherche, qui réglemente cette activité. Et un rapport est attendu sur le sujet avant le débat au Sénat à partir du 26 avril. Restera à fouiller parmi toutes ces solutions.

Le Monde 18/04/2016