L’idée est bien celle-là: utiliser seulement des mots pour générer une image photo-réaliste.
L’outil se présente comme une interface graphique très ergonomique disposant de menus listant des objets: véhicules, personnes, décors extérieurs, animaux, nourriture, matériaux…
L’outil propose 171 objets au total, extraits de la base de données COCO (common objects in context) créée par Microsoft.
L’utilisateur les sélectionne dans le menu déroulant voulu mais ce n’est pas l’image qui s’affiche à l’écran, juste le mot, en toutes lettres (rocher, pont, nuage, mer).
En revanche, dans une autre fenêtre apparaît bien l’image correspondante. L’utilisateur ne manipule jamais les images mais les mots. Il peut en ajouter, en supprimer, les déplacer, grossir ou réduire leurs tailles. Le résultat est généré en temps réel sur la fenêtre d’à côté.
La disposition d’un paysage peut ne pas changer (plage au premier plan, mer au deuxième, rocher à droite, bande de ciel bleu en haut), mais il est possible de modifier l’apparence générale par le biais d’un curseur.
En déplaçant celui-ci, on fait défiler différentes versions d’une scène dont les éléments restent placés aux mêmes endroits.
Il existe ainsi 100 versions d’une même scène, ce que les chercheurs ont appelé des “archétypes”.
Les objets, les scènes et toutes les variations dues aux manipulations des mots ne sont en fait pas directement puisés dans la base de données COCO.
Tout est produit par des réseaux génératifs antagonistes (GAN), cette catégorie d’algorithme qui sert à créer les deepfakes et beaucoup utilisées pour faire de l’art avec de l’intelligence artificielle.
Les images de la base de données servent en quelque sorte de référence aux images générées.
L’algorithme “accepte” d’afficher ces dernières quand il estime qu’elles sont au niveau de celles de la base de données.
Dans les faits, il est encore assez facile de voir, à l’oeil nu, que ces images ne sont pas vraies.
“Elles sont encore floues, pixellisées, reconnaissait, Antoine Bordes, le directeur de la cellule parisienne du laboratoire FAIR lors d’une présentation à la presse de ce projet début décembre.
Le système marche bien avec des paysages mais il est plus difficile d’obtenir un bon résultat pour des intérieurs”.
Contrairement à un décor naturel, les objets manufacturés, des meubles, des cloisons imposent d’avoir une image plus nette, aux contours mieux délimités qu’une prairie ou des nuages.
Mais comme toujours dans ce genre de projet, obtenir mieux est sans doute juste une question de temps.
Il n’y a pas si longtemps, en effet, en mars 2019, les chercheurs de Nvidia présentaient un projet similaire basé sur les GAN.
L’utilisateur devait tout de même dessiner grossièrement, avec des à-plats de couleurs très enfantins à la palette graphique, le paysage qu’il comptait générer. Six mois plus tard, il n’y a même plus besoin de dessiner.
Même mal.
Et si, pour dessiner un paysage, il suffisait d’écrire les mots “rivière”, “montagne”, “herbe”, “ciel”, “buisson” pour faire apparaître ces éléments ?
C’est une technologie réellement mise au point par deux chercheurs en informatique de l’université de Tel Aviv (Israël), membres de FAIR, le laboratoire de recherche en intelligence artificielle de Facebook.
Leur projet a été présenté à la dernière conférence internationale sur la vision par ordinateur (ICCV) qui a eu lieu à Séoul en Corée du Sud entre fin octobre et début novembre.
Leur article a été distingué parmi les meilleurs avec “mention honorable”.
L’idée est bien celle-là: utiliser seulement des mots pour générer une image photo-réaliste.
L’outil se présente comme une interface graphique très ergonomique disposant de menus listant des objets: véhicules, personnes, décors extérieurs, animaux, nourriture, matériaux…
L’outil propose 171 objets au total, extraits de la base de données COCO (common objects in context) créée par Microsoft.
L’utilisateur les sélectionne dans le menu déroulant voulu mais ce n’est pas l’image qui s’affiche à l’écran, juste le mot, en toutes lettres (rocher, pont, nuage, mer).
En revanche, dans une autre fenêtre apparaît bien l’image correspondante. L’utilisateur ne manipule jamais les images mais les mots.
Il peut en ajouter, en supprimer, les déplacer, grossir ou réduire leurs tailles. Le résultat est généré en temps réel sur la fenêtre d’à côté.
Source Izland Bip Bip
Vous nous aimez, prouvez-le....