Naila Murray : Enseigner aux machines à voir
« Si vous voulez vraiment concevoir des machines vraiment intelligentes, elles auront besoin de pouvoir formuler des opinions subjectives. »
Apprendre aux machines à voir
La vision artificielle est un travail important dans le domaine de l’intelligence artificielle. Des améliorations de la manière dont les machines observent et interprètent ce qui les entoure pourraient entraîner le type de développements technologiques qui, jusqu’à maintenant, ont été des éléments de films de science-fiction.
Mais les machines pourront-elles réellement voir un jour? Qu’est-ce que voir signifie réellement? De plus, les machines devraient-elles tenter et reproduire les processus neuraux que les humains utilisent pour la vision ou est-ce mieux de recommencer à zéro?
Qu’est-ce que c’est d’avoir la vue?
La vision humaine est bien connue comme étant difficile à imiter. Voilà pourquoi de nombreux experts en vision artificielle ont tout simplement choisi d’ignorer le système visuel humain. Après tout, les machines ne pourraient-elles pas être conçues pour voir le monde complètement différemment et de manières supérieures à celles que nous offre l’œil humain.
Mais Naila, qui a grandi à Trinité-et-Tobago, sent que cette pensée n’est plus répandue dans la communauté de la vision artificielle. Au lieu de cela, il y a « un virage visant à s’inspirer à nouveau du système de vision humaine.
En fait, Naila et ses collègues tentent de donner aux machines des opinions semblables à celles des humains sur leurs observations, même en essayant de leur enseigner ce qu’elles devraient considérées comme étant esthétiquement agréable et ce qui ne doit pas l’être. Elle veut aussi aider les ordinateurs à apprendre ce sur quoi ils doivent se concentrer lorsqu’ils prennent des scènes.
C’est un travail d’avant-garde dans le domaine de la vision artificielle, qui s’est traditionnellement concentré sur les détails sémantiques ou objectifs dans un environnement. « Auparavant, nous nous ne sommes pas tellement concentrés sur ce que nous appelons davantage les propriétés subjectives, comme l’esthétique et l’importance visuelle, ce qui attire l’attention vers des scènes visuelles », explique Naila. « Ces types de propriétés vont au-delà de l’objectivité, mais ils sont aussi très intéressants. Si vous voulez vraiment concevoir des machines vraiment intelligentes, elles auront besoin de pouvoir formuler des opinions subjectives. »
Inspiration des photographes
Pour avancer, Naila et ses collaborateurs se sont adressés à une communauté de photographes en ligne dans laquelle les participants formulent des critiques sur leurs travaux respectifs. Naila voulait tirer profit des opinions et l’expertise sur le site pour apprendre à une machine ou un algorithme à formuler des critiques sur les photos. Pour cela, elle a utilisé l’apprentissage automatique, une méthode de modélisation de données qui permet aux ordinateurs d’apprendre sans être programmée explicitement. C’est un domaine qui bénéficie de grandes quantités de données disponibles dans un monde moderne ainsi que des augmentations continues de la puissance de traitement.
Naila explique : « Auparavant, les chercheurs en vision artificielle peuvent avoir fourni des connaissances spécialisées par programme à un algorithme sur des caractéristiques d’images esthétiquement agréables. L’algorithme tenterait ensuite d’utiliser ces caractéristiques afin de prédire si une image est esthétiquement agréable. » Mais avec l’apprentissage automatique, les ordinateurs peuvent apprendre les informations nécessaires de façon indépendante.
« Nous avons simplement fourni un algorithme d'apprentissage avec des images et des critiques qui les accompagnaient et nous lui avons demandé de reproduire les critiques. Nous avons supposé que si 100 personnes sont d’accord que c’est une belle image, nous pouvons alors être assez certains que c’est le cas.
« Vous pouvez imaginer que pour évaluer un portrait photographique, les types de jugements esthétiques qui seraient appliqués ne seraient pas les mêmes que si c’était un paysage. S’il s’agissait d’une photographie d’un paysage, on pourrait se concentrer sur des fonctions comme la composition complexe et la disparition de lignes. Dans un portrait, différentes règles s’appliquent. Ce sont des choses qu’une machine pourrait découvrir en analysant de nombreux exemples.
« Mais bien sûr les jugements esthétiques sont créés d’abord par les êtres humains. Donc, ce que nous avons trouvé était que beaucoup de caractéristiques qui sont intuitives ou déjà règles empiriques, s’applique. »
Une relation avec les machines
L’intérêt de Naila pour la vision artificielle peut remonter à son baccalauréat en génie électrique à l’Université de Princeton. « J’étais très intéressée par les machines à navigation automatique, c’est-à-dire, les machines qui pourraient fonctionner dans un environnement de façon autonome et en recherche, ce que ça prendrait pour créer de telles machines. Je suis passée à la maîtrise en intelligence artificielle et en vision artificielle.
« Pourquoi? Parce que la vision artificielle utilise beaucoup l’intuition sur la perception visuelle humaine, mais elle constitue à la fois tout un défi. La perception humaine nous permet d’effectuer des tâches comme la reconnaissance des objets de façon presque triviale, mais amener la machine au même niveau de précision de reconnaissance est devenu extrêmement difficile. Chercher quelles informations donnent des résultats pour entraîner des machines à voir et celles qui n’en donnent pas est fascinant.
« Par exemple, les humains peuvent identifier correctement la couleur d’un objet sous de nombreuses conditions d’éclairage différentes. Il peut faire clair à l’extérieur. Il peut faire noir. Il peut y avoir de la brume. Mais nous sommes toujours capables de dire avec une grande précision quelles couleurs sont présentes. Pour un ordinateur, cette variabilité est extrêmement difficile à gérer, mais notre système visuel peut compenser pour beaucoup de ces changements environnementaux automatiquement. »
Apprentissage en profondeur
Apprendre graduellement le système visuel humain est devenu une immense d’inspiration pour Naila puisqu’elle a créé des modèles de vision artificielle dans le cadre de son doctorat.
Passer à l’apprentissage en profondeur, un sous-domaine de l’apprentissage automatique qui implique des couches multiples de traitement de signaux, a été un choix naturel pour elle. Naila explique : « Certaines méthodes d’apprentissage en profondeur utilisent des réseaux neuraux artificiels qui sont inspirés du système visuel de notre cerveau. Les réseaux profonds qui utilisés dans la vision artificielle sont très loin d’être des modèles biologiques, mais certainement l’inspiration de base, l’extraction d’informations hiérarchiques, est là. »
Naila dépend de l’apprentissage en profondeur pour déverrouiller une partie du casse-tête visuel pour des ordinateurs. Elle veut aider les machines à décider ce qu’elles doivent regarder dans leur champ de vision. L’importance de ce domaine de la recherche sur la vision des machines est claire. Par exemple, les machines qui doivent naviguer automatiquement dans les environnements en temps réel nécessitent des algorithmes pour se concentrer sur leur attention visuelle. Et tout comme les humains priorisent l’attention visuelle afin de sauvegarder la puissance du cerveau pour ce qui est important, les machines doivent pouvoir reconnaître les stimulus visuels les plus méritants de la puissance de leur traitement limité.
Diriger le regard de la machine
Naila explique : « Nos yeux échantillonnent constamment notre champ de vision et c’est quelque chose que les systèmes de vision artificielle font aussi. Imaginons qu’une machine doit suivre une personne par vidéo. Si la vidéo a été prise à l’extérieur, la machine pourrait probablement ignorer de façon sécuritaire le ciel et se concentrer sur la partie inférieure de l’image. Ce que mes collègues et moi avons fait c’est d’utiliser les techniques d’apprentissage en profondeur pour reproduire les types de modèles d’attention dont nous avons besoin pour de tels scénarios. »
« Nous avons ainsi utilisé un ensemble de données de suivi oculaire qui ont été recueillies lorsque les gens regardaient une série d’images. Nous avons fourni ces images et les données de suivi oculaire un algorithme d’apprentissage en profondeur qui a entraîné un réseau neural convolutionnel à reproduire les modèles d’attention. Cela a eu beaucoup de succès et les cartes d’attention synthétisées ont très bien reproduit les données recueillies. »
Naila a cherché comment son travail peut s’appliquer aux systèmes qui aident les autorités à contrôler les systèmes de péage routier pour le covoiturage. Son équipe a aidé à établir combien de passagers voyagent dans une auto en retirant les informations générales non pertinentes, rendant les systèmes plus précis.
L’équipe de Naila aide aussi à créer une application de réalité augmentée qui serait particulièrement utile pour les gens qui conduisent des véhicules qu’ils ne connaissent pas. L’appli mobile permet aux utilisateurs ne numériser l’intérieur d’une auto afin que la fonction de boutons et d’interrupteurs particuliers apparaissent à l’écran. « Si vous avez une certaine idée de l’endroit où les gens regardent en autos, par exemple le système de divertissements ou le tableau de bord, le modèle d’attention peut ensuite être entraîné à localiser ces zones et permettre à l’appli de se concentrer rapidement sur les zones susceptibles de comporter des éléments d’intérêt. »
Les experts en IA s’unissent
Naila voit le domaine de la vision artificielle devenir de plus en plus dépendant de la collaboration interdisciplinaire entre les différents domaines de l’intelligence artificielle. Son groupe examine déjà les interaction entre les images et le texte avec des collègues chercheurs en traitement du langage naturel. Une récent innovation de Facebook qui aide les utilisateurs malvoyants à « voir » des images en les décrivant sous une forme qui peut être lue par un lecteur d’écran a beaucoup intéressé Naila.
« Tout de suite vous pouvez voir une interaction très évidente entre trois choses », dit-elle. « Vous avez la vision artificielle pour comprendre ce qui se trouve dans une image, la génération du langage naturel pour décrire réellement en cela en mots, puis la génération de la parole afin de l’exprimer oralement. Cela fait beaucoup de sens pour ces choses de travailler en collaboration.
« Il y a beaucoup de travail dans la linguistique sur la manière de représenter la parole, d’extraire la sémantique de résumer. Il s’avère que beaucoup de manières de représente le texte peuvent aussi être utilisées avec assez de succès pour représenter des images.
« Le domaine de la vision artificielle a toujours été très collaboratif. Je dirais que cela devient plus important parce que nous arrivons à un point de sophistication où nous pouvons commencer à résoudre des problèmes plus complexes avec des angles multiples. »
Apprendre aux ordinateurs à penser
Essentiellement, Naila et des centaines d’autres scientifiques et ingénieurs chez Xerox tentent de rendre les ordinateurs plus intelligents. Jusqu’où et à quelle vitesse Naila voit-elle ce traitement de l’intelligence?
« Nous avons vécu un si grand changement en vision artificielle depuis environ quatre ans seulement. Le changement peut être tellement rapide que je ne dirais jamais que dans 20 nous n’aurons pas pu quelque chose d’extrêmement excitant se produire, bien que je ne m’attends pas à cette singularité de sitôt. »
« Je n’aime pas faire des prédictions. Toutefois, je suis toujours intéressée par la prochaine étape. Vous ne pouvez jamais avoir un projet qui est terminé en ce qui a trait à la recherche, vous penser toujours ‘comment puis-je l’améliorer?’ ou ‘comment cela se traduit dans cette situation?’ C’est généralement ce que je cherche lorsque je regarde vers l’avenir.
« Une des raisons pour lesquelles je suis chez Xerox c’est que l’entreprise s’engage à créer des solutions novatrices qui font des changements positifs dans la vie des gens. C’est littéralement mon travail de penser aux manières d’y arriver. »
Nous avons tous changé le monde. Chacun d’entre nous. Chaque fois que nous respirons, notre présence notre se propage vers l’extérieur.
Mais peu d’entre nous ont l’occasion de changer beaucoup de vies pour le mieux. Et encore moins doivent le faire chaque jour. Voilà le défi lancé quotidiennement aux chercheurs de Xerox : essayer et effectuer des changements.
En échange, nous leur donnons le temps et l’espace pour rêver. Puis les ressources pour transformer les rêves en réalité, que ce soit pour inventez de nouveaux matériels ayant des fonctions incroyables ou utiliser la réalité augmentée pour stimuler la mémoire les patients atteints d’Alzheimer.
Nous sommes fiers de nos agents de changement dans les centres de recherche Xerox à travers le monde.
Innovation Xerox
Découvrez comment les grands esprits de notre planète se réunissent dans nos centres de recherche mondiaux pour améliorer l'avenir du travail.