Comment motiver une IA ?
  • The Conversation

Comment motiver une IA ?

Les « intelligences artificielles » sont performantes pour accomplir les tâches spécifiques définies par les humains, mais elles sont beaucoup moins bonnes dès qu’elles font face à une situation non rencontrée préalablement.

Dans le film « Interstellar » de Christopher Nolan, TARS est omniprésent. TARS est un robot intelligent, et pourtant il ne possède pas d’intelligence surhumaine ni des gadgets futuristes pour impressionner le public. Au contraire, il est parfois plus « humain » que les protagonistes humains eux-mêmes, non pas seulement parce qu’il est capable d’aider et de donner des conseils, mais aussi parce qu’il est vulnérable.

En effet, les « intelligences artificielles » sont performantes pour accomplir les tâches spécifiques, définies par les humains, sur lesquelles elles étaient entraînées, mais elles sont beaucoup moins bonnes dès qu’elles font face à une situation non rencontrée préalablement. Un « robot » nettement plus intelligent devrait pouvoir s’adapter progressivement aux nouveaux contextes rencontrés. Il deviendrait alors un agent « autonome », capable de percevoir ce qui l’entoure et d’effectuer d’une manière indépendante des actions.

Cela nous amène à deux questions : comment entraîner ces agents artificiels autonomes ? Comment leur donner « envie » d’apprendre autre chose que ce que l’on attendait d’eux ?

Récompenses et motivation

Un « agent artificiel autonome » n’est pas nécessairement robotisé et physique – il s’agit plutôt d’un programme capable de prendre des décisions d’une manière indépendante. Cet agent peut évoluer dans la pièce à côté ou dans une simulation numérique. On parle d’« intelligence » si cet agent apprend à prendre des décisions adéquates dans un certain contexte par lui-même.

L’un des paradigmes les plus prometteurs présentant un cadre formel pour cet apprentissage est l’apprentissage « par renforcement ». L’idée de base est empruntée de la théorie du renforcement en psychologie, qui désigne un procédé ayant pour but d’augmenter la probabilité de répétition d’un comportement. Par exemple, une souris qui reçoit de la nourriture quand elle touche le jeton rose et un choc électrique léger quand elle touche le jeton bleu aura tendance à opter pour le jeton rose.

D’une manière similaire, nous, humains, pouvons entraîner un agent artificiel en le plongeant dans un environnement spécifique, comme un labyrinthe ou une chambre avec des objets à manipuler, en lui permettant d’effectuer certaines actions, comme d’aller à droite ou bien de bouger son bras, et en lui précisant quelles actions seront récompensées ou pénalisées.

En pratique, l’agent artificiel « choisit » une action : n’ayant aucun a priori sur ce qu’il doit apprendre, il commence par explorer l’espace des possibles en choisissant aléatoirement des actions. Imaginez qu’il possède un répertoire de 6 actions possibles. Il lance un dé parfait, c’est-à-dire que la probabilité d’avoir l’une des 6 faces est la même. Il effectue ensuite l’action désignée par le dé. En contrepartie, il reçoit une récompense : ni de la nourriture ni une décharge électrique, mais plutôt une augmentation, ou une diminution, d’un score total que nous, humains, avions défini.

L’objectif de l’agent artificiel dans ce cas est d’apprendre un comportement qui permet de maximiser ce score. En fonction des récompenses qu’il obtient pour chaque action, le dé devient de plus en plus « truqué », favorisant les actions qui rapportent le plus de récompenses, ou bien le moins de pénalisations (s’il s’agit d’apprendre à éviter des comportements dangereux par exemple). Par exemple, si à partir d’une certaine position, c’est l’action 4 qui rapporte le plus de récompenses, alors le « lancer de dé » truqué favorisera la face 4, c’est-à-dire que la probabilité d’avoir cette face est plus grande que les probabilités d’avoir une face différente. Pour maximiser son score, l’agent doit trouver un équilibre entre explorer son environnement, c’est-à-dire essayer de nouvelles actions, même si elles ne lui rapportent rien, et exploiter ses acquis, c’est-à-dire refaire les actions récompensées.

Motivation intrinsèque

Ainsi, ce sont les récompenses qu’il obtient qui motivent l’agent artificiel à réaliser un comportement particulier. Par analogie, on peut voir deux types de motivations pour les humains : un humain qui n’aimerait pas son travail pourrait le faire dans le but d’être payé. C’est le salaire qui le motive. Par contre, un humain qui aime le ping-pong n’est pas nécessairement payé pour jouer ; c’est le plaisir du jeu qui le motive. Dans ce cas, la récompense qu’il obtient ne provient pas de l’extérieur, mais plutôt de l’intérieur de l’agent.

Un agent artificiel capable de distinguer l’environnement externe, dans lequel il agit, de son environnement interne, d’où provient son signal de récompense peut créer lui-même un signal de récompense. Un tel agent artificiel est dit « intrinsèquement motivé » : il fixe lui-même ses objectifs lors de son apprentissage et il se récompense systématiquement dès qu’il arrive à atteindre ces objectifs.

Parmi les motivations intrinsèques dont nous (humains) pourrions doter un agent artificiel, on peut évoquer la curiosité, l’envie de contrôle, l’imitation et la communication. Ces caractéristiques vous semblent relever plutôt de l’humain ? En fait, on peut aussi les modéliser mathématiquement pour approcher des comportements motivés par ces caractéristiques.

Comment rendre un robot curieux ?

Par exemple, un agent artificiel curieux a pour but d’observer et de prospecter son environnement. En effet, il essaie d’explorer les actions dont les conséquences sont incertaines pour lui. Ceci va le mener à découvrir un répertoire riche de ce qu’il peut réaliser dans son environnement externe.

Un agent artificiel pourrait vouloir contrôler ce qui existe dans l’environnement avec lequel il interagit. Ainsi, quand l’agent artificiel fait face à un cube par exemple, il voudra savoir le pousser, le saisir ou l’empiler sur un autre avec dextérité.

Plusieurs types de motivations : explorer son environnement, imiter un humain, XYZ..

Puis, comme des enfants de trois ans, un agent artificiel pourrait vouloir imiter ce que fait l’humain. En effet, ce dernier lui procure des démonstrations de certains comportements qui sont difficiles à décrire par du langage ou à exprimer par un signal de récompense externe. L’agent artificiel doit apprendre à imiter ce comportement à partir des actions qu’il perçoit chez l’humain.

Enfin, l’agent artificiel pourrait vouloir communiquer avec d’autres agents artificiels pour donner des informations sur l’environnement ou bien pour solliciter de l’aide. Ceci pourrait engendrer l’émergence d’un nouveau langage ou d’une nouvelle forme de communication différente de celle des humains. En effet, afin de pouvoir communiquer, les robots doivent apprendre des concepts, par exemple la couleur rouge. Ces concepts appris doivent être communs pour tous les robots. Imaginez par exemple qu’une manière de représenter la couleur rouge est de faire une signalisation sonore aiguë, qu’un robot A fait cette signalisation et qu’un robot B essaie de deviner le concept derrière. Le robot B fait une tentative et le robot A l’informe s’il a bien deviné ou non. Par essais et erreurs, les deux robots apprennent à la fin ce concept à partir d’une représentation commune, ici une sonorisation aiguë pour la couleur rouge.

En pratique, nous modélisons une motivation intrinsèque par une quantité mathématique jouant le rôle d’un score. En explorant les actions mises à sa disposition, l’agent artificiel essaie de maximiser ce score.

Quand les robots sortiront des environnements dans lesquels on les entraîne

Certes, c’est l’humain qui conçoit à la fois l’agent artificiel et l’environnement externe à cet agent. Néanmoins, à force d’interagir et de découvrir ce qui l’entoure, l’agent artificiel peut finir par exhiber des comportements auxquels le concepteur ne s’attendait pas. Par exemple, il peut trouver une façon optimale de construire une pyramide à partir de petits cubes colorés, ou de trouver un raccourci pour faire une tâche bien particulière.

Cependant, ces agents artificiels « autonomes » souffrent d’une grande dépendance à l’environnement dans lequel ils se sont entraînés. Atteindre une intelligence artificielle dite « générale » ou « IA forte » permettrait probablement de remédier à ce défaut et d’avoir des robots capables de s’adapter continuellement aux changements et d’interagir d’une manière plus efficace avec l’humain.The Conversation


Ahmed Akakzia, Doctorant en Deep Reinforcement Learning, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Préparer ma rentrée 2023-2024

Retrouvez toutes les étapes pour bien préparer votre rentrée, du dépôt de vos candidatures jusqu'au début de votre année universitaire.

Préparer ma rentrée slider

Candidater en première année de licence sur Parcoursup

Les candidatures en licence s'effectuent sur la plateforme nationale en ligne Parcoursup. Retrouvez le calendrier ainsi que nos fiches conseil pour vous accompagner lors des différentes étapes de la procédure.

Candidater en première année de master

Les candidatures en master s'effectuent à partir de cette année sur la plateforme nationale en ligne Mon Master. Retrouvez toutes les étapes à suivre pour effectuer vos recherches et candidater aux formations qui vous intéressent.

candidater première année de master


Quand nous nous sommes réveillés

Par Luba Jurgenson

Nuit du 24 février 2022 : invasion de l'Ukraine

La ville des enfants

Par Sophie Corbillé

Fantasmagorie du capital dans un parc d'attractions globalisé

Graduate

25 000

Étudiantes et étudiants

193

Parcours de licence

192

Parcours de master

13

Sites et campus

Formations

Découvrez toute notre offre de formation

Médecine

La faculté de Médecine assure l’enseignement des 3 cycles d’études médicales : de la PASS (intégrée à la faculté) au 3e cycle incluant des DES, DESC, DU et DIU. Les enseignements sont dispensés principalement sur deux sites : Pitié-Salpêtrière et Saint-Antoine. La faculté dispense également des enseignements paramédicaux : l’orthophonie, la psychomotricité et l’orthoptie. Le site Saint-Antoine intègre une école de sage-femme.

Etudier à | la faculté de Médecine

La diversité des étudiants et de leurs parcours est l’une de nos richesses. Sorbonne Université s’engage pour la réussite de chacun de ses étudiants et leur propose une large offre de formations ainsi qu’un accompagnement adapté à leur profil et à leur projet.

La vie associative

La diversité des étudiants et de leurs parcours est l’une de nos richesses. Sorbonne Université s’engage pour la réussite de chacun de ses étudiants.

21 393

usagers

17 527

étudiants

715

hospitalo-universitaires

12

centres de recherche

Chiffres-clés


Découvrir les dernières parutions

Toutes les parutions

Dans les pas de Jonas

Par Serge Uzan

L’algorithme de Jonas

Dupuytren

Par /Sous la direction de Julie Cheminaud et de Claire Crignon

Ou le musée des maladies

Sexe et violences

Par Danièle Tritsch, Jean Mariani

Comment le cerveau peut tout changer

Les extraordinaires pouvoirs du ventre

Par Harry Sokol

Un fabuleux voyage à la découverte des pouvoirs de notre microbiote.

Le Grand Livre des pratiques psychomotrices

Par Anne Vachez-Gatecel, Aude Valentin-Lefranc

La Psychomotricité

Par Françoise Giromini-Mercier, Suzanne Robert-Ouvray, Cécile Pavot-Lemoine, Anne Vachez-Gatecel

Apologie de la discrétion

Par Lionel Naccache

Comment faire partie du monde ?

Le Grand Livre des pratiques psychomotrices

Par Anne Vachez-Gatecel, Aude Valentin-Lefranc

Fondements, domaines d'application, formation et recherche

Je marche donc je pense

Par Roger-Pol Droit et Yves Agid

La recherche en temps d'épidémie

Par Patrice Debré

Du sida au Covid, histoire de l'ANRS

Neurosciences cognitives

Par / Sous la direction de Mehdi Khamassi

La médecin

Par Karine Lacombe, Fiamma Luzzati

Une infectiologue au temps du corona

Le Cinéma intérieur

Par Lionel Naccache

Projection privée au cœur de la conscience

Des formations riches et exigeantes

La faculté accompagne plus de 20 000 étudiantes et étudiants vers le monde professionnel grâce à une très large offre de formations adossées à la recherche, disciplinaires et interdisciplinaires, afin de répondre à tous les défis, scientifiques, technologiques et sociétaux.

Son cycle d’intégration pluridisciplinaire et son dispositif majeure-mineure en licence, ses 80 parcours de masters, ses formations internationales, ses cursus en apprentissage et son offre de formation continue permettent de proposer des parcours riches et exigeants, adaptés aux projets de chacun, nourris par les recherches de ses enseignantes-chercheuses, enseignants-chercheurs, chercheurs et chercheuses.

Recherche

Couvrant tous les champs de la connaissance en sciences et ingénierie, la Faculté des Sciences et Ingénierie soutient la recherche au cœur des disciplines, la recherche aux interfaces, le développement de partenariat avec les entreprises, et favorise l'émergence de nouvelles thématiques pour répondre aux grands enjeux  du XXIe siècle.

La vie à | la Faculté des Sciences et Ingénierie

Que ce soit sur le campus Pierre et Marie Curie, ou dans ses trois stations biologiques, à Banyuls, Roscoff et Villefranche, la Faculté des Sciences et Ingénierie constitue à la fois un lieu d'enseignement, de recherche et d'épanouissement intellectuel, où cours, conférences, colloques, congrès, expositions et autres manifestations scientifiques rythment la vie de ses étudiants et de ses personnels.

La vie associative à la faculté des Sciences et Ingénierie

Vie associative

Découvrez la vie associative de la Faculté des Sciences et Ingénierie.



Les mondes de Saturne

Par Sébastien Charnoz, Sandrine Vinatier, Sandrine Guerlet, Alice Le Gall

Les mystères de Saturne révélés !

Du Laboratoire Arago à l'Observatoire océanologique de Banyuls

Par / Sous la direction de Guy Jacques et de Yves Desdevises

Une épopée humaine et scientifique

Stem Cell Biology and Regenerative Medicine

Par Charles Durand & Pierre Charbord

River Publishers Series in Biotechnology and Medical Technology Forum