Intelligence artificielle : les nouvelles machines à écrire

Avec les «réseaux de neurones», les ordinateurs peuvent comprendre la structure même des textes. En découlent de nombreuses applications sur lesquelles planchent des sociétés comme le pionnier de la traduction informatisée Systran.

Il y a toujours un accent de science-fiction quand on parle d’intelligence artificielle (IA). Comme si ces deux mots n’avaient rien à faire ensemble en dehors d’un film de Spielberg. C’est pourtant une discipline de l’informatique qui remonte à la fin des années 50. Beaucoup de techniques différentes ont été étudiées et développées pour permettre aux machines de résoudre des problèmes complexes, avec des résultats toujours plus impressionnants – François Hollande a d’ailleurs annoncé mardi une enveloppe de 1,5 milliard d’euros d’investissements dans ce domaine sur dix ans (lire sur Libération.fr).

Pendant longtemps, plusieurs écoles se sont affrontées (arbres de décision, systèmes multi-agents, etc.), mais, depuis 2012, après des résultats spectaculaires dans le domaine de la reconnaissance d’images, une discipline de l’IA a pris le pas sur toutes les autres : le deep learning, ou apprentissage profond. Basé sur ce qu’on appelle des réseaux de neurones, qui reproduisent très schématiquement la structure des cellules du cerveau humain, le deep learning permet à un programme de s’améliorer par l’expérience et de pouvoir résoudre le problème pour lequel il est développé avec des résultats inimaginables il y a encore quelques années.

Tout miser sur les neurones

En gros, un réseau de neurones est capable de comprendre une logique de correspondance entre des données de départ et le résultat attendu. Mais le champ d’application est vaste, tellement vaste qu’on peine aujourd’hui à en percevoir des limites. Il suffit qu’il y ait une relation forte entre ce qu’on présente au réseau de neurones et ce qu’on attend de lui.

Il peut donc apprendre à distinguer des éléments dans une image, à choisir un coup à effectuer à partir d’une situation dans un jeu (que ce soit le go ou un jeu vidéo), à anticiper un mouvement en fonction de la topographie d’un terrain, ou encore à traduire un texte d’une langue dans une autre. La traduction est d’ailleurs, aux côtés de la reconnaissance d’images, l’un des défis historiques de l’intelligence artificielle. C’est sans doute le secteur qui est en train de vivre sa plus grande révolution technologique depuis les premiers systèmes de traduction assistée par ordinateur.

Systran fait partie des pionniers dans les technologies du langage. Créée en 1968 à San Diego en Californie, l’entreprise a d’abord travaillé, en pleine période de guerre froide, pour l’US Air Force à la traduction de revues scientifiques russes. Dans les années 80, Systran devient française à la suite d’une acquisition (elle a depuis été rachetée par une société coréenne mais son siège social est toujours à Paris). Elle a suivi au plus près les évolutions technologiques du secteur, notamment la micro-informatique, qui a explosé dans les années 90 et surtout le Web. Systran a ainsi fourni la base logicielle à des services très connus comme BabelFish ou Google Translate jusqu’en 2007. Mais face à la révolution de l’IA, du passé Systran a fait table rase.

Du point de vue technologique, l’entreprise a décidé de tout miser sur les réseaux de neurones pour proposer des outils de traduction spécialisés aux entreprises. Elle travaille conjointement avec Harvard pour développer un logiciel open source, Open NMT, capable d’apprendre sur n’importe quelle base textuelle. Le programme en lui-même est simple d’utilisation (et très court, seulement 4 000 lignes de code). Il suffit de lui donner un texte à étudier (la source) et le résultat qu’on attend de lui (la cible) et de lui fournir beaucoup d’autres textes, afin que le réseau puisse construire un modèle efficace. Par exemple, en entrant le corpus utilisé depuis des décennies par les outils de traduction, à savoir les textes de l’ONU déclinés en plusieurs langues, on obtient des traducteurs performants. Systran propose à ce jour 60 «paires» de langues.

A écouter Jean Senellart, directeur général de la société, on comprend l’importance de ce bouleversement technologique. Ce chercheur en linguistique informatique de formation, qui a rejoint Systran en 1999, semble fasciné par les promesses technologiques de l’intelligence artificielle : «Avec mon parcours, j’étais habitué à maîtriser mes outils. Aujourd’hui, je me retrouve à découvrir ce que les outils qu’on a développés peuvent faire.»

Dans le style de Shakespeare

Et d’énumérer les différents essais que ses équipes (les deux tiers des 70 salariés basés à Paris travaillent en recherche et développement) et celles de Harvard ont réalisés pour évaluer les capacités d’Open NMT. On lui donne les textes de Shakespeare, et il ressort des textes incohérents, mais dans le style de l’auteur anglais. A partir de la construction de recettes de cuisines, il est capable d’en créer de nouvelles qui semblent crédibles mais qu’on ne goûtera pour rien au monde. Open NMT sait aussi créer un réseau qui aura appris à trouver des titres à partir des articles du Washington Post (si ce texte devient illisible à partir d’ici, c’est que le service édition de Libé s’est mis en grève).

Jean Senellart est expansif quand il parle de ses recherches actuelles, un peu comme un explorateur qui aurait découvert Shangri-La. Et c’est aujourd’hui une caractéristique commune à tous ceux qui travaillent sur le sujet. Lui évoque déjà les progrès futurs, où il intégrera la logique de renforcement, celle-là même qui a permis à AlphaGo de s’améliorer en jouant contre lui-même, dans son programme. «J’aimerais bien faire un essai avec un type de bouquin très simple, comme ceux de la série Harlequin. On pourrait donner la première moitié du livre au programme, et peut-être qu’il arrivera à écrire sa propre version de la seconde moitié.» Et même si le chercheur évoque aussi les perspectives en termes d’apprentissage des langues (où la machine accompagnera l’élève à son rythme) ou d’assistance à la traduction sur le modèle des correcteurs orthographiques, on reste songeur sur la perspective troublante que le silicium puisse produire de l’eau de rose.

Libération 22/03/2017