mercredi 16 mars 2016

Institut Weizmann : Malgré ses réussites, l’intelligence artificielle manque de subtilité


Nous ne cesserons jamais de vanter les extraordinaires exploits de l’Intelligence artificielle… mais cela n’empêche pas de prendre un peu de recul....




Car si la machine est devenue imbattable dans certaines taches requérant de compulser des milliards d’informations à très haute vitesse, par exemple dans la reconnaissance d’images ou dans la planification stratégique (jeux), elle semble perdue quand, au contraire, elle doit se contenter d’un minimum d’informations – domaine dans lequel nous excellons.
En effet, une équipe de chercheurs a montré comment les meilleurs systèmes IA actuels, ceux de Google, Facebook et d’autres, défaillent à reconnaître des images très incomplètes, une compétence essentielle des humains et de la plupart des animaux.

A partir de quand une image n’est-elle plus reconnaissable ?

Les chercheurs du M.I.T (États-Unis) et de l’Institut Weizmann (Israël) ont d’abord mis au point une méthodologie inspirée de travaux de psychologie expérimentale consistant à définir, pour dix objets (avion, bateau, mouche, vélo, aigle, œil, cheval, lunettes, costume, voiture), une limite de reconnaissance, ou configuration minimale de reconnaissance, de cet objet suivant le niveau de zoom et de floutage appliqué.

Par effet de zoom et de flou sur des photos, ici de mouche, les chercheurs identifient une configuration minimale en-deçà de laquelle l’objet n’est plus reconnaissable. Les chiffres représentent le taux de reconnaissance de l’objet par les humains (Shimon Ullman et al., PNAS 2016)


Cette configuration minimale est telle qu’une petite augmentation de l’effet de zoom ou de flou entraîne statistiquement une chute très forte du taux de reconnaissance de l’objet, comme l’illustre l’image ci-dessous.


Les lignes A et B représentent les mêmes objets avec des niveau de zoome et de flou qui se situent à la limite du reconnaissable par les humains (ou configurations minimales reconnaissables). Les lignes A* et B* représentent ces mêmes images mais juste en-dessous de la limite (il faut les regarder un par un pour constater le phénomène). Les chiffres sous les images représentent les taux de reconnaissance obtenus (statistiquement). On constate la forte chute de ce taux entre les lignes A et A* (B et B*).
Les lignes A et B représentent les mêmes objets avec des niveau de zoome et de flou qui se situent à la limite du reconnaissable par les humains (ou configuration minimale de reconnaissance). Les lignes A* et B* représentent ces mêmes images mais juste en-dessous de la limite (il faut les regarder un par un pour constater le phénomène). Les chiffres sous les images représentent les taux de reconnaissance obtenus (statistiquement). On constate la forte chute de ce taux entre les lignes A et A* (B et B*). Shimon Ullman et al., PNAS 2016


Les chercheurs se sont servi de la Toile, via le système collaboratif Amazon Mechanical Turk, pour définir expérimentalement cette configuration minimale : ils y ont versé 3 553 de ces images, représentant les 10 objets avec des niveaux de zoom et de floutage différents, afin de recueillir les réponses des internautes à la question : que représente cette image ? (une image par internaute).

Pour chaque objet, les chercheurs ont effectué des dizaines de zoom (et de floutages) différents (Shimon Ullman et al., PNAS 2016).
Pour chaque objet, les chercheurs ont effectué des dizaines de zoom et de floutages différents (Shimon Ullman et al., PNAS 2016)

L’exercice a été effectué par 14 000 internautes, ce qui a permis de confirmer que la compétence à reconnaître des images selon le niveau de zoom et de floutage est relativement homogène chez les humains, et qu’il y a bien une chute forte du taux de reconnaissance à partir d’une certaine limite, validant l’hypothèse de l’existence de cette configuration minimale de reconnaissance.

Coté IA, ça manque de finesse de vue

Du coté des IA, dont les célèbres “réseaux de neurones profonds” utilisés par Google, les chercheurs les ont d’abord entraînés à reconnaître des objets sur des images non zoomées ni floutées, soit des centaines de milliers d’images portant le label de ce qu’elles représentaient, de sorte à obtenir un excellent taux de reconnaissance (de l’ordre de 85%). Puis ils les ont soumis, dans la phase de test, au même exercice que les internautes.

Avant de tester la capacité des IA à reconnaître des images zoomées ou floutées, les chercheurs leur ont d'abord appris à reconnaître les objets faisant partie du test. Ici, le type d'image présenté à l'IA dans la phase d'apprentissage (Shimon Ullman et al., PNAS 2016).
Avant de tester la capacité des IA à reconnaître des images zoomées ou floutées, les chercheurs leur ont d’abord appris à reconnaître les objets faisant partie du test. Ici, le type d’image présenté à l’IA dans la phase d’apprentissage (Shimon Ullman et al., PNAS 2016)

Résultat : les IA ont cessé de reconnaître l’objet représenté bien avant leurs homologues humains. En particulier, les images représentant la configuration minimale n’ont été reconnues par les IA qu’à un taux de 7% (contre environ 80% pour les humains) !
Même en rendant plus intelligents ces IA (doublement des couches de neurones) ou en les entraînant directement sur ces configurations minimales (avec des labels indiquant ce qu’elles représentaient), aucun des systèmes n’a pu arriver à la cheville des internautes.

Un résultat qui questionne le tournant “tout-statistique” pris par l’IA actuelle

Les chercheurs ont également étudié les processus dans les couches intermédiaires des systèmes, afin de voir s’il y avait tout de même un début de reconnaissance de la part des IA, sans rien trouver qui puisse indiquer une identification quelconque. Bref, à ce jeu subtil de la reconnaissance avec un minimum d’informations, l’IA a prouvé son incompétence.
Les chercheurs en ont déduit que le système cognitif humain – mais cela vaut sans doute pour de nombreuses espèces – s’appuie sur des “représentations internes” palliant le manque d’informations extérieures – ce dont les systèmes IA, qui fonctionnent uniquement sur les redondances statistiques, manquent cruellement.
Finalement, l’orientation très “statistique” prises dans le domaine de l’IA, qui surclasse l’homme dans des tâches nécessitant de classer et filtrer un trop plein d’information, ne sera peut-être pas suffisante pour capter toute la subtilité des systèmes cognitifs de chair et de sang.

Román Ikonicoff

Source Science & vie