https://frosthead.com

Un moteur de recherche qui fait correspondre vos dessins aux photographies n'est pas si loin

Il y a quelques semaines, j'étais dans un centre commercial quand j'ai remarqué une femme qui portait un grand sac à main avec une sangle en forme de corde. Depuis que je suis sur le marché pour un nouveau sac, j'ai envisagé de lui demander où elle l'avait eu. Mais avant que je puisse bouger, elle disparut dans un coin. Quand je suis rentré à la maison, j'ai essayé de googler le sac. Mais je ne suis pas une fashionista et j'ai découvert que je n'avais pas le vocabulaire pour décrire ce que j'avais vu. "Sac à main en cuir avec cordon de serrage" n'était pas juste. Ce n'était pas non plus un «sac à main avec une corde» ou un «sac avec une lanière». Finalement, j'ai abandonné.

Maintenant, une nouvelle technologie vise à aider les gens à rechercher des choses qu'ils ne peuvent pas nécessairement décrire avec des mots.

James Hays, informaticien au Georgia Institute of Technology, a créé un programme informatique capable de faire correspondre des images dessinées à la main à des photographies. Cela pourrait éventuellement aboutir à un programme capable de combiner des services de recherche d'images sur Internet, tels que Google Images, et de rechercher des photographies correspondant exactement aux dessins des utilisateurs.

«L’objectif est de pouvoir relier ou faire correspondre des photos et des croquis dans les deux sens, comme le ferait un humain», explique Hays. «Un humain peut voir un croquis mal dessiné et déterminer la photo à laquelle il semble correspondre. Nous voulons avoir la même capacité de calcul. "

Pour créer ce programme, M. Hays a embauché près de 700 travailleurs chez Amazon Mechanical Turk, un marché de crowdsourcing qui associe les travailleurs à des personnes qui ont besoin de tâches. Son équipe a montré aux travailleurs des photos d'objets ordinaires et d'animaux, tels que des écureuils, des théières et des bananes, leur permettant de regarder l'image pendant deux secondes. Le travailleur puis dessine l'objet de la mémoire. L'équipe a finalement rassemblé plus de 75 000 croquis de 12 500 objets. Ils ont appelé cela la «base de données Sketchy».

Le programme a ensuite analysé les croquis et les a comparés à la photo à laquelle ils ressemblaient le plus. La technologie a identifié la photo correcte 37% du temps. Les humains, en comparaison, avaient raison environ 54% du temps. Bien que 37% puissent sembler peu impressionnants, il s’agit en réalité d’une avancée considérable pour les ordinateurs.

«Les humains ont déjà une vision tellement étonnante que nous reconnaissons les images sans effort», déclare Hays. "C'est en fait étonnamment difficile au niveau des calculs."

L'un des principaux défis à relever pour améliorer le programme est que la plupart des gens sont des artistes plutôt moche. Comme Hays et son équipe l'ont écrit dans un article sur le sujet: «Les formes et les échelles sont déformées. Les parties de l'objet sont caricaturales (grandes oreilles sur un éléphant), anthropomorphisées (bouche souriante sur une araignée) ou simplifiées (membres en bâtonnets). "

Historiquement, les recherches visant à amener les ordinateurs à reconnaître les esquisses se sont concentrées sur des éléments tels que la distribution des lignes dans un dessin, la direction dans laquelle les lignes sont insérées ou les limites du dessin. Mais comme les êtres humains ne dessinent que ce qui est important pour eux (les yeux, par exemple, sont toujours inclus dans les croquis, même s'ils sont relativement petits), il est important qu'un ordinateur «apprenne» en quoi les croquis ont tendance à être similaires et ont tendance à être différent des photographies. Pour cela, le programme utilise deux réseaux distincts, un qui évalue les esquisses, un qui évalue les photographies. En analysant constamment un grand ensemble de données, le programme peut continuellement «apprendre».

Hays et son équipe prévoient de continuer à améliorer le programme en ajoutant des données. Les progrès en apprentissage informatique devraient également contribuer à améliorer les taux de correspondance. À l'heure actuelle, le programme affiche un taux de correspondance assez élevé lorsque l'on compare les croquis aux bases de données de photos sur Internet, y compris Flickr, bien qu'il soit difficile à quantifier, explique Hays.

En plus de la recherche d'image de sac à main dont j'ai si cruellement besoin, le programme a un certain nombre d'utilisations potentielles moins frivoles. La police pourrait numériser des croquis suspects et les comparer à une base de données de photographies criminelles. Le programme peut être utilisé par des personnes qui parlent et écrivent dans n’importe quelle langue ou qui ne savent pas écrire du tout.

«L'un des objectifs de la compréhension des esquisses est qu'elles constituent un langage un peu universel», explique Hays. «Cela n’est pas lié à une langue écrite particulière ni à l’alphabétisation. [Un programme comme celui-ci pourrait apporter] un accès à l'information sans langage écrit. "

Le programme pourrait également être utilisé de manière artistique pour créer des scènes photoréalistes à partir de croquis. Toujours imaginé vivre dans un château sur la lune? Dessinez-le et le programme pourra un jour créer une image photo en assemblant des morceaux d’autres images.

Les informations recueillies par Hays et son équipe pourraient également aider à résoudre certaines questions relatives aux neurosciences et à la psychologie, déclare Hays.

«Ces paires croquis-photos disent quelque chose à propos de la perception humaine, de ce que nous pensons être saillant, quelles parties des images captent notre attention», dit Hays. «À certains égards, cette base de données encode très bien cela. Il pourrait y avoir quelque chose à en dire, si vous voulez dire quelque chose à propos des humains eux-mêmes. "

Un moteur de recherche qui fait correspondre vos dessins aux photographies n'est pas si loin