Bonjour,
Je viens avec plusieurs questions sur le nouvel AplhaGo.
L’article dans Nature est ici :
https://www.nature.com/articles/natu...wjxeTUgZAUMnRQ
(trouvé via https://www.contrepoints.org/2017/10...alphago-dingue)
Je trouve vraiment incroyable qu’une description de 4 pages donne toutes les informations nécessaires à la reproduction de l’algo. D’autant plus que l’article insiste sur « First and foremost, it is trained solely by self¬play reinforcement learning, starting from random play, without any supervision or use of human data. »
Ma première question est la suivante. La description de l’algo tel qu’il est décrit est-il suffisant pour le reproduire ?
Ma deuxième : si j’ai bien compris le précédent alphaGo était architecturé sur trois modules :
1) Un réseau neuronal pour évaluer une position ;
2) Un réseau neuronal pour générer les « bons » coups à partir d’une position ;
3) Un algo Alpha Béta avec monte carlo (MCTS) qui chaine les deux pendant la partie.
Avec le nouveau on n’a plus qu’un seul réseau neuronal qui génère les « bons » coups à partir d’une position. Le MCTS n’est utilisé que pour la génération des millions de parties qui ont permis l’entrainement du réseau neuronal.
Mon interprétation est-elle correcte ?
Un troisième, ce n’est pas vraiment une question mais un truc rigolo : « Surprisingly, Shicho (‘ladder’ capture sequences that may span the whole board)—one of the first elements of Go knowledge learned by humans—were only understood by AlphaGo Zero much later in training ». Le Shicho est relativement facile à détecter et à programmer de façon algorithmique. Pour faire simple, AlphaGo est meilleur que nous sur la stratégie que sur la tactique . L’exact inverse de ce que l’on pensait en 1990.
Enfin, un autre truc incroyable. S’il faut vraiment 3 jours pour entrainer AlphaGO avec 4 millions de parties, cela veut dire que le temps moyens de circulation de l’info dans le réseau neuronal est très nettement inférieur à la 10° de seconde.
Confronté à un joueur humain (qui de toute façon n’a aucune chance de gagner) et qui mettra autour d’une minute pour jouer chaque coup, le dernier argument en faveur de la « supériorité » de l’homme (la moindre consommation d’énergie) tombe.
-----