The Conversation

Comment motiver une IA ?

Les « intelligences artificielles » sont performantes pour accomplir les tâches spécifiques définies par les humains, mais elles sont beaucoup moins bonnes dès qu’elles font face à une situation non rencontrée préalablement.

Publié le 20/11/2020 - Mis à jour le 27/07/2021

Lecture 6 min.

Dans le film « Interstellar » de Christopher Nolan, TARS est omniprésent. TARS est un robot intelligent, et pourtant il ne possède pas d’intelligence surhumaine ni des gadgets futuristes pour impressionner le public. Au contraire, il est parfois plus « humain » que les protagonistes humains eux-mêmes, non pas seulement parce qu’il est capable d’aider et de donner des conseils, mais aussi parce qu’il est vulnérable.

En effet, les « intelligences artificielles » sont performantes pour accomplir les tâches spécifiques, définies par les humains, sur lesquelles elles étaient entraînées, mais elles sont beaucoup moins bonnes dès qu’elles font face à une situation non rencontrée préalablement. Un « robot » nettement plus intelligent devrait pouvoir s’adapter progressivement aux nouveaux contextes rencontrés. Il deviendrait alors un agent « autonome », capable de percevoir ce qui l’entoure et d’effectuer d’une manière indépendante des actions.

Cela nous amène à deux questions : comment entraîner ces agents artificiels autonomes ? Comment leur donner « envie » d’apprendre autre chose que ce que l’on attendait d’eux ?

Récompenses et motivation

Un « agent artificiel autonome » n’est pas nécessairement robotisé et physique – il s’agit plutôt d’un programme capable de prendre des décisions d’une manière indépendante. Cet agent peut évoluer dans la pièce à côté ou dans une simulation numérique. On parle d’« intelligence » si cet agent apprend à prendre des décisions adéquates dans un certain contexte par lui-même.

L’un des paradigmes les plus prometteurs présentant un cadre formel pour cet apprentissage est l’apprentissage « par renforcement ». L’idée de base est empruntée de la théorie du renforcement en psychologie, qui désigne un procédé ayant pour but d’augmenter la probabilité de répétition d’un comportement. Par exemple, une souris qui reçoit de la nourriture quand elle touche le jeton rose et un choc électrique léger quand elle touche le jeton bleu aura tendance à opter pour le jeton rose.

D’une manière similaire, nous, humains, pouvons entraîner un agent artificiel en le plongeant dans un environnement spécifique, comme un labyrinthe ou une chambre avec des objets à manipuler, en lui permettant d’effectuer certaines actions, comme d’aller à droite ou bien de bouger son bras, et en lui précisant quelles actions seront récompensées ou pénalisées.

En pratique, l’agent artificiel « choisit » une action : n’ayant aucun a priori sur ce qu’il doit apprendre, il commence par explorer l’espace des possibles en choisissant aléatoirement des actions. Imaginez qu’il possède un répertoire de 6 actions possibles. Il lance un dé parfait, c’est-à-dire que la probabilité d’avoir l’une des 6 faces est la même. Il effectue ensuite l’action désignée par le dé. En contrepartie, il reçoit une récompense : ni de la nourriture ni une décharge électrique, mais plutôt une augmentation, ou une diminution, d’un score total que nous, humains, avions défini.

L’objectif de l’agent artificiel dans ce cas est d’apprendre un comportement qui permet de maximiser ce score. En fonction des récompenses qu’il obtient pour chaque action, le dé devient de plus en plus « truqué », favorisant les actions qui rapportent le plus de récompenses, ou bien le moins de pénalisations (s’il s’agit d’apprendre à éviter des comportements dangereux par exemple). Par exemple, si à partir d’une certaine position, c’est l’action 4 qui rapporte le plus de récompenses, alors le « lancer de dé » truqué favorisera la face 4, c’est-à-dire que la probabilité d’avoir cette face est plus grande que les probabilités d’avoir une face différente. Pour maximiser son score, l’agent doit trouver un équilibre entre explorer son environnement, c’est-à-dire essayer de nouvelles actions, même si elles ne lui rapportent rien, et exploiter ses acquis, c’est-à-dire refaire les actions récompensées.

Motivation intrinsèque

Ainsi, ce sont les récompenses qu’il obtient qui motivent l’agent artificiel à réaliser un comportement particulier. Par analogie, on peut voir deux types de motivations pour les humains : un humain qui n’aimerait pas son travail pourrait le faire dans le but d’être payé. C’est le salaire qui le motive. Par contre, un humain qui aime le ping-pong n’est pas nécessairement payé pour jouer ; c’est le plaisir du jeu qui le motive. Dans ce cas, la récompense qu’il obtient ne provient pas de l’extérieur, mais plutôt de l’intérieur de l’agent.

Un agent artificiel capable de distinguer l’environnement externe, dans lequel il agit, de son environnement interne, d’où provient son signal de récompense peut créer lui-même un signal de récompense. Un tel agent artificiel est dit « intrinsèquement motivé » : il fixe lui-même ses objectifs lors de son apprentissage et il se récompense systématiquement dès qu’il arrive à atteindre ces objectifs.

Parmi les motivations intrinsèques dont nous (humains) pourrions doter un agent artificiel, on peut évoquer la curiosité, l’envie de contrôle, l’imitation et la communication. Ces caractéristiques vous semblent relever plutôt de l’humain ? En fait, on peut aussi les modéliser mathématiquement pour approcher des comportements motivés par ces caractéristiques.

Comment rendre un robot curieux ?

Par exemple, un agent artificiel curieux a pour but d’observer et de prospecter son environnement. En effet, il essaie d’explorer les actions dont les conséquences sont incertaines pour lui. Ceci va le mener à découvrir un répertoire riche de ce qu’il peut réaliser dans son environnement externe.

Un agent artificiel pourrait vouloir contrôler ce qui existe dans l’environnement avec lequel il interagit. Ainsi, quand l’agent artificiel fait face à un cube par exemple, il voudra savoir le pousser, le saisir ou l’empiler sur un autre avec dextérité.

Plusieurs types de motivations : explorer son environnement, imiter un humain, XYZ..

Puis, comme des enfants de trois ans, un agent artificiel pourrait vouloir imiter ce que fait l’humain. En effet, ce dernier lui procure des démonstrations de certains comportements qui sont difficiles à décrire par du langage ou à exprimer par un signal de récompense externe. L’agent artificiel doit apprendre à imiter ce comportement à partir des actions qu’il perçoit chez l’humain.

Enfin, l’agent artificiel pourrait vouloir communiquer avec d’autres agents artificiels pour donner des informations sur l’environnement ou bien pour solliciter de l’aide. Ceci pourrait engendrer l’émergence d’un nouveau langage ou d’une nouvelle forme de communication différente de celle des humains. En effet, afin de pouvoir communiquer, les robots doivent apprendre des concepts, par exemple la couleur rouge. Ces concepts appris doivent être communs pour tous les robots. Imaginez par exemple qu’une manière de représenter la couleur rouge est de faire une signalisation sonore aiguë, qu’un robot A fait cette signalisation et qu’un robot B essaie de deviner le concept derrière. Le robot B fait une tentative et le robot A l’informe s’il a bien deviné ou non. Par essais et erreurs, les deux robots apprennent à la fin ce concept à partir d’une représentation commune, ici une sonorisation aiguë pour la couleur rouge.

En pratique, nous modélisons une motivation intrinsèque par une quantité mathématique jouant le rôle d’un score. En explorant les actions mises à sa disposition, l’agent artificiel essaie de maximiser ce score.

Quand les robots sortiront des environnements dans lesquels on les entraîne

Certes, c’est l’humain qui conçoit à la fois l’agent artificiel et l’environnement externe à cet agent. Néanmoins, à force d’interagir et de découvrir ce qui l’entoure, l’agent artificiel peut finir par exhiber des comportements auxquels le concepteur ne s’attendait pas. Par exemple, il peut trouver une façon optimale de construire une pyramide à partir de petits cubes colorés, ou de trouver un raccourci pour faire une tâche bien particulière.

Cependant, ces agents artificiels « autonomes » souffrent d’une grande dépendance à l’environnement dans lequel ils se sont entraînés. Atteindre une intelligence artificielle dite « générale » ou « IA forte » permettrait probablement de remédier à ce défaut et d’avoir des robots capables de s’adapter continuellement aux changements et d’interagir d’une manière plus efficace avec l’humain.

Ahmed Akakzia, Doctorant en Deep Reinforcement Learning, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.