Pour les humains, les échecs peuvent prendre toute une vie à maîtriser. Mais le nouveau programme d'intelligence artificielle de Google DeepMind, AlphaZero, peut apprendre à conquérir le tableau en quelques heures.
S'appuyant sur ses succès antérieurs avec la suite AlphaGo (une série de programmes informatiques conçus pour jouer au jeu de société chinois Go), Google se vante de ce que son nouvel AlphaZero atteint un niveau de «performances surhumaines» non seulement d'un jeu de société, mais de trois: Go, les échecs et le shogi (essentiellement les échecs japonais). L’équipe d’informaticiens et d’ingénieurs, dirigée par David Silver, de Google, a récemment publié ses conclusions dans la revue Science .
«Auparavant, avec l'apprentissage automatique, vous pouviez obtenir une machine qui fasse exactement ce que vous voulez, mais seulement cette chose-là», déclare Ayanna Howard, experte en informatique interactive et en intelligence artificielle du Georgia Institute of Technology, qui n'a pas participé au concours. recherche. "Mais AlphaZero montre que vous pouvez avoir un algorithme qui n'est pas si spécifique, et qu'il peut apprendre avec certains paramètres."
L’intelligente programmation d’AlphaZero fait certainement beaucoup mieux en matière de jeu, que ce soit pour l’homme ou pour la machine, mais Google s’intéresse depuis longtemps à quelque chose de plus important: l’intelligence technique.
Les chercheurs ont pris soin de ne pas prétendre qu'AlphaZero était au bord de la domination du monde (d'autres ont été un peu plus rapides pour passer à l'action). Néanmoins, Silver et le reste de l'équipe de DeepMind espèrent déjà voir un jour un système similaire appliqué à la conception de médicaments ou à la science des matériaux.
Alors, qu'est-ce qui rend AlphaZero si impressionnant?
Le gameplay a longtemps été considéré comme une référence en matière de recherche sur l'intelligence artificielle. Les jeux interactifs structurés simplifient les scénarios du monde réel: il faut prendre des décisions difficiles; les victoires et les défaites font monter les enchères; et la prédiction, la pensée critique et la stratégie sont essentielles.
Encoder ce genre de compétence est délicat. Les anciennes IA de jeu, y compris les premiers prototypes de l’AlphaGo original, ont toujours été remplies de codes et de données pour imiter l’expérience généralement acquise au cours d’années de jeu naturel et humain (essentiellement une décharge de connaissances passive dérivée du programmeur). Avec AlphaGo Zero (la version la plus récente d’AlphaGo), et maintenant AlphaZero, les chercheurs n’ont donné au programme qu’un seul apport: les règles du jeu en question. Ensuite, le système s'est accroupi et a activement appris les ficelles du métier lui-même.
AlphaZero est basé sur AlphaGo Zero, une partie de la suite AlphaGo conçue pour jouer au jeu de société chinois Go, illustrée ci-dessus. Les premières itérations du programme original ont été alimentées par des données tirées de jeux entre humains; Les versions ultérieures se consacraient à l'auto-apprentissage, dans lequel le logiciel jouait à des jeux contre lui-même pour apprendre sa propre stratégie. (Chad Miller / Flickr / CC BY-SA 2.0)Cette stratégie, appelée apprentissage par renforcement pour l’auto-apprentissage, est à peu près exactement ce qu’elle ressemble: Pour s’entraîner dans les ligues majeures, AlphaZero s’est joué d’itération en itération, perfectionnant ses compétences par essais et erreurs. Et l'approche par la force brute a porté ses fruits. Contrairement à AlphaGo Zero, AlphaZero ne se contente pas de jouer à Go: il peut également battre les meilleurs IA du secteur. Le processus d’apprentissage est également d’une efficacité impressionnante, ne nécessitant que deux, quatre ou 30 heures d’auto-tutorat pour surpasser les programmes spécialement conçus pour maîtriser le shogi, les échecs et le Go, respectivement. Les auteurs de l’étude n’ont notamment signalé aucun cas d’AlphaZero face à un humain, a déclaré Howard. (Les chercheurs ont peut-être supposé que, étant donné que ces programmes encombraient systématiquement leurs homologues humains, une telle confrontation aurait été vaine.)
AlphaZero a également été en mesure de devancer Stockfish (le maître des échecs de l’IA désormais non défait) et Elmo (l’ancien expert en shogi de l’IA) bien qu’il ait évalué moins de mouvements possibles à chaque tour en cours de partie. Mais comme les algorithmes en question sont intrinsèquement différents et peuvent consommer différentes quantités de puissance, il est difficile de comparer directement AlphaZero à d’autres programmes plus anciens, souligne Joanna Bryson, qui étudie l’intelligence artificielle à l’Université de Bath au Royaume-Uni. pas contribuer à AlphaZero.
Google garde le silence sur beaucoup de petits caractères de son logiciel, et AlphaZero ne fait pas exception. Bien que nous ne sachions pas tout sur la consommation d'énergie du programme, il est clair que: AlphaZero doit contenir des munitions de calcul sérieuses. Durant ces quelques heures d'entraînement, le programme se tenait très occupé et participait à des dizaines, voire des centaines de milliers de rondes de pratique pour mettre au point sa stratégie de jeu de table - bien plus qu'un joueur humain n'aurait besoin (ou, dans la plupart des cas, ne le pourrait pas. même accomplir) dans la poursuite de la compétence.
Ce régime intensif utilisait également 5 000 unités de processeur (TPU) propres à Google, qui, selon certaines estimations, consommaient environ 200 watts par puce. Quelle que soit la manière dont vous la découpez, AlphaZero nécessite bien plus d'énergie qu'un cerveau humain, qui fonctionne à environ 20 watts.
La consommation énergétique absolue d'AlphaZero doit être prise en compte, ajoute Bin Yu, qui travaille à l'interface des statistiques, de l'apprentissage automatique et de l'intelligence artificielle à l'université de Californie à Berkeley. AlphaZero est puissant, mais pourrait ne pas être rentable - en particulier lors de l'ajout des heures-personnes nécessaires à sa création et à son exécution.
Énergiquement cher ou pas, AlphaZero fait des vagues: la plupart des IA sont hyper-spécialisées dans une seule tâche, ce qui rend ce nouveau programme - avec sa triple menace de jeu - remarquablement flexible. "C'est impressionnant qu'AlphaZero ait pu utiliser la même architecture pour trois jeux différents", déclare Yu.
Donc oui. La nouvelle intelligence artificielle de Google définit une nouvelle marque de plusieurs manières. C'est rapide. C'est puissant. Mais est-ce que ça le rend intelligent?
C'est là que les définitions commencent à devenir troubles. "AlphaZero a été capable d'apprendre, à partir de rien sans aucune connaissance humaine, à jouer à chacun de ces jeux à un niveau surhumain", a déclaré Silver de DeepMind dans une déclaration à la presse.
Même si l’expertise du jeu de société nécessite une acuité mentale, tous les mandataires du monde réel ont leurs limites. Dans sa version actuelle, AlphaZero tire son épingle du jeu en remportant des jeux conçus par l'homme, ce qui ne justifie peut-être pas l'étiquette potentiellement alarmante de «surhumain». De plus, s'il est surpris par un nouvel ensemble de règles en cours de partie, AlphaZero pourrait devenir flummox. Le cerveau humain lui-même peut stocker plus de trois jeux de société dans son répertoire.
Qui plus est, comparer les données de base d'AlphaZero à une tabula rasa (ardoise vierge) - comme le font les chercheurs - est une tâche ardue, déclare Bryson. Les programmeurs continuent de le nourrir d'un morceau crucial de la connaissance humaine: les règles du jeu qu'il va jouer. "Il y a beaucoup moins de choses à faire que tout ce qui a été fait auparavant", ajoute Bryson, "mais le plus fondamental, c'est que des règles sont toujours en place. Ce sont explicites. "
Et ces règles embêtantes pourraient constituer une béquille importante. «Même si ces programmes apprennent à performer, ils ont besoin du code de la route», déclare Howard. "Le monde est plein de tâches qui n'ont pas ces règles."
JoZ Paul, qui étudie l’intelligence artificielle et le rêve informatique à la Virginia Polytechnic Institute et à la State University, explique JoAnn Paul, mais n’a pas participé à la nouvelle recherche. AlphaZero utilise beaucoup des blocs de construction et des algorithmes identiques à AlphaGo Zero et ne constitue toujours qu'un sous-ensemble de véritables intelligences. «Je pensais que ce nouveau développement était plus évolutif que révolutionnaire», ajoute-t-elle. «Aucun de ces algorithmes ne peut créer . L'intelligence est aussi une histoire. C'est imaginer des choses qui ne sont pas encore là. Nous ne pensons pas en ces termes dans les ordinateurs. "
Le problème réside en partie dans le fait qu’il n’ya toujours pas de consensus sur une définition véritable de «l’intelligence», déclare Yu, et pas seulement dans le domaine de la technologie. "Nous ne savons toujours pas comment nous entraînons des êtres qui pensent de manière critique, ni comment nous utilisons le cerveau inconscient", ajoute-t-elle.
À ce stade, de nombreux chercheurs pensent qu'il existe probablement plusieurs types d'intelligence. Et puiser dans un pays loin de garantir les ingrédients pour un autre. Par exemple, certaines des personnes les plus intelligentes sont terribles aux échecs.
Avec ces limitations, la vision de Yu sur l'avenir de l'intelligence artificielle associe les humains et les machines à une sorte de coévolution. Les machines continueront certainement à exceller dans certaines tâches, explique-t-elle, mais une intervention et une surveillance humaines peuvent toujours être nécessaires pour compenser les non-automatisés.
Bien sûr, rien ne dit comment les choses vont bouger dans l'arène de l'IA. En attendant, nous avons beaucoup à méditer. "Ces ordinateurs sont puissants et peuvent faire certaines choses mieux qu’un être humain", déclare Paul. "Mais cela ne répond toujours pas au mystère de l'intelligence."
Cet article a été publié à l'origine sur NOVA.