Bonjour, cliquez-ici pour vous inscrire et participer au forum.
  • Login:



+ Répondre à la discussion
Page 1 sur 10 12 3 4 5 6 7 8 9 DernièreDernière
Affichage des résultats 1 à 15 sur 150

AlphaGO Zéro

  1. HenriParisien1

    Date d'inscription
    mars 2016
    Messages
    174

    AlphaGO Zéro

    Bonjour,
    Je viens avec plusieurs questions sur le nouvel AplhaGo.

    L’article dans Nature est ici :
    https://www.nature.com/articles/natu...wjxeTUgZAUMnRQ

    (trouvé via https://www.contrepoints.org/2017/10...alphago-dingue)


    Je trouve vraiment incroyable qu’une description de 4 pages donne toutes les informations nécessaires à la reproduction de l’algo. D’autant plus que l’article insiste sur « First and foremost, it is trained solely by self¬play reinforcement learning, starting from random play, without any supervision or use of human data. »

    Ma première question est la suivante. La description de l’algo tel qu’il est décrit est-il suffisant pour le reproduire ?

    Ma deuxième : si j’ai bien compris le précédent alphaGo était architecturé sur trois modules :
    1) Un réseau neuronal pour évaluer une position ;
    2) Un réseau neuronal pour générer les « bons » coups à partir d’une position ;
    3) Un algo Alpha Béta avec monte carlo (MCTS) qui chaine les deux pendant la partie.
    Avec le nouveau on n’a plus qu’un seul réseau neuronal qui génère les « bons » coups à partir d’une position. Le MCTS n’est utilisé que pour la génération des millions de parties qui ont permis l’entrainement du réseau neuronal.
    Mon interprétation est-elle correcte ?

    Un troisième, ce n’est pas vraiment une question mais un truc rigolo : « Surprisingly, Shicho (‘ladder’ capture sequences that may span the whole board)—one of the first elements of Go knowledge learned by humans—were only understood by AlphaGo Zero much later in training ». Le Shicho est relativement facile à détecter et à programmer de façon algorithmique. Pour faire simple, AlphaGo est meilleur que nous sur la stratégie que sur la tactique . L’exact inverse de ce que l’on pensait en 1990.

    Enfin, un autre truc incroyable. S’il faut vraiment 3 jours pour entrainer AlphaGO avec 4 millions de parties, cela veut dire que le temps moyens de circulation de l’info dans le réseau neuronal est très nettement inférieur à la 10° de seconde.
    Confronté à un joueur humain (qui de toute façon n’a aucune chance de gagner) et qui mettra autour d’une minute pour jouer chaque coup, le dernier argument en faveur de la « supériorité » de l’homme (la moindre consommation d’énergie) tombe.

    -----

     


    • Publicité



  2. LeMulet

    Date d'inscription
    septembre 2016
    Âge
    49
    Messages
    997

    Re : AlphaGO Zéro

    Citation Envoyé par HenriParisien1
    Enfin, un autre truc incroyable. S’il faut vraiment 3 jours pour entrainer AlphaGO avec 4 millions de parties, cela veut dire que le temps moyens de circulation de l’info dans le réseau neuronal est très nettement inférieur à la 10° de seconde.
    Confronté à un joueur humain (qui de toute façon n’a aucune chance de gagner) et qui mettra autour d’une minute pour jouer chaque coup, le dernier argument en faveur de la « supériorité » de l’homme (la moindre consommation d’énergie) tombe.
    Pas d'accord.
    D'une part, la "machine" humaine ne fait pas que calculer, elle vit, ce qui entre autres lui permet de se réparer.
    Pour les machines artificielles, la défaillance du processeur signifie la fin du processus calculatoire, car déjà pour commencer ses "neurones" sont virtuels et dépendant du processeur ainsi que de sa mémoire physique.

    D'autre part, il est faux de croire que la machine "gagne".
    Elle ne sait pas ce que ce terme signifie et il s'agit d'un concepts qui doit être précisé par les concepteurs de la machine afin que celle-ci "apprenne à gagner".
    Sinon elle pourrait tout aussi bien exceller pour perdre à coup sur...
    On voit donc qu'on est loin du compte si on veut la comparer à l'intelligence humaine.
    Bonjour, et Merci.
     

  3. Deedee81

    Date d'inscription
    octobre 2007
    Localisation
    Courcelles - Belgique
    Âge
    55
    Messages
    28 921

    Re : AlphaGO Zéro

    Salut,

    Citation Envoyé par LeMulet Voir le message
    D'autre part, il est faux de croire que la machine "gagne".
    Elle ne sait pas ce que ce terme signifie et il s'agit d'un concepts qui doit être précisé par les concepteurs de la machine afin que celle-ci "apprenne à gagner".
    Sinon elle pourrait tout aussi bien exceller pour perdre à coup sur...
    On voit donc qu'on est loin du compte si on veut la comparer à l'intelligence humaine.
    Sur ce point je suis d'accord. C'est en fait ce qui distingue une IA spécialisée (qui existent et sont devenues extraordinaires) et une IA généraliste (qui reste encore largement une utopie).

    AlphaGo Zéro est quand même une belle avancée. C'est le vieux rêve de "voici les règles, y compris celle qui dit comment on gagne", et "vas-y apprend". Alors qu'avant on devait encore lui donner des tonnes de parties jouées par des humains pour qu'il s'en inspire (un beau progrès aussi, avant ça on donnait des heuristiques construites par des humains et si ça marchait bien aux échecs, on s'y cassait les dents avec le go).

    D'un point de vue "spécialisé", cette I.A. est évidemment supérieure à l'homme. Mais ça c'est pas nouveau. Essayez un peu de vaincre une (bonne) machine à Othello-Reversi par exemple Le progrès ici n'est pas dans la supériorité à l'homme mais dans l'avancée en tant que système spécialisé.
    Dernière modification par Deedee81 ; 26/10/2017 à 07h37.
    Tout est relatif, et cela seul est absolu. (Auguste Comte)
     

  4. LeMulet

    Date d'inscription
    septembre 2016
    Âge
    49
    Messages
    997

    Re : AlphaGO Zéro

    Citation Envoyé par Deedee81 Voir le message
    D'un point de vue "spécialisé", cette I.A. est évidemment supérieure à l'homme. Mais ça c'est pas nouveau. Essayez un peu de vaincre une (bonne) machine à Othello-Reversi par exemple Le progrès ici n'est pas dans la supériorité à l'homme mais dans l'avancée en tant que système spécialisé.
    Exact, et on pourrait dire la même chose d'un Homme armé de ses poings et d'un bâton de dynamite.
    le bâton de dynamite est "plus fort" que l'Homme devant le bloc de granit.

    Il est vrai de plus qu'on a là affaire à une belle avancée.
    Ce qui m'épate le plus, ce n'est pas tant la prestation de la machine, mais le fait qu'on a fini par comprendre et surtout démontré que c'est le système le plus simple qui est le plus efficace (pas de deuxième réseau pour évaluer le premier) et donc que "l'évaluation" est une vue de l'esprit.
    Par exemple, si on veut faire bouger un bras artificiel, on peut imaginer des systèmes "à calibrer" sur lequel fait intervenir des réseaux de neurones pour l'actionner.
    Or ici, avec AlphaGo il apparait clairement que "l'adaptation", le calibrage qui dépend du hardware (le matériel étant équivalent aux contraintes physiques, c'est à dire aux règles dans le cas du Go) peut être obtenu (et probablement DOIT être obtenu) par le réseau de neurones lui-même.
    La seule règle à produire en dur, si je puis m'exprimer ainsi, c'est celle du choix gagnant.

    C'est d'ailleurs ce qu'on observe, il me semble, dans le cas des êtres vivants, pour lesquels les réseaux de neurones de coordination se développent conjointement aux appendices, alors que ces derniers se trouvent eux-mêmes en cours de développement.
    Le choix gagnant étant dans ce cas de figure plus complexe à concevoir, mais bon, tout dépend aussi ce qu'on veut faire faire à l'appendice.
    Bonjour, et Merci.
     

  5. Jiav

    Date d'inscription
    juillet 2004
    Messages
    8 351

    Re : AlphaGO Zéro

    Citation Envoyé par HenriParisien1 Voir le message
    Ma première question est la suivante. La description de l’algo tel qu’il est décrit est-il suffisant pour le reproduire ?
    Il y a peut-être quelques ingrédients secrets (pas nécessairement cachés volontairement), mais à vrai dire tout semble présent. Pour être certain il faudrait le refaire, et on peut être raisonnablement certain qu'il y a des tas de gens qui sont précisément en train d'essayer. Je ne serais pas surpris qu'on trouve du code libre sur github d'ici l'année prochaine, mais cela prendra quand même une solide bête (incluant une NVIDIA respectable) pour pouvoir faire tourner cela chez soi.

    Citation Envoyé par HenriParisien1 Voir le message
    Ma deuxième : si j’ai bien compris le précédent alphaGo était architecturé sur trois modules :
    1) Un réseau neuronal pour évaluer une position ;
    2) Un réseau neuronal pour générer les « bons » coups à partir d’une position ;
    3) Un algo Alpha Béta avec monte carlo (MCTS) qui chaine les deux pendant la partie.
    Avec le nouveau on n’a plus qu’un seul réseau neuronal qui génère les « bons » coups à partir d’une position. Le MCTS n’est utilisé que pour la génération des millions de parties qui ont permis l’entrainement du réseau neuronal.
    Mon interprétation est-elle correcte ?
    Moui. En fait ils ont un réseau unique à la base mais qui se sépare en deux têtes, une qui évalue la position et une qui génère les probabilités de jouer chaque coup. Un autre aspect c'est qu'ils utilisent un resnet plutôt qu'un réseau à convolution 'traditionnel' (c'est le nouveau champion de la vision artificielle depuis deux trois ans, cela permet des réseaux maousse profonds et notablement plus costaux).

    Dans le détail ils ont essayés 4 configurations: convolution + réseaux séparés (i.e. comme pour l'ancienne version); convolution + réseau bicéphale; resnet + réseaux séparés; resnet + réseau bicéphale (i.e. alphago zéro). Cela leur permet de montrer que le facteur architecture leur fait gagner environ 650 points d'elo, c'est-à-dire autant que le passage au resnet.

    Finalement, l'algorithme de MCTS est également un peu plus simple, sans qu'il soit clair pour moi si cette simplification leur procure un gain ou si c'est simplement une amélioration liée au fait qu'alphago zero tourne sur un matériel plus facile à maîtriser que les troupeaux de GPU/CPU et TPU/CPU utilisés par les versions précédentes.

    Citation Envoyé par HenriParisien1 Voir le message
    Confronté à un joueur humain (qui de toute façon n’a aucune chance de gagner) et qui mettra autour d’une minute pour jouer chaque coup, le dernier argument en faveur de la « supériorité » de l’homme (la moindre consommation d’énergie) tombe.
    Pour moi le plus impressionnant est plutôt de comparer les moyens de calculs mis en jeu par les humains versus alphago zero. Les humains ont développé leur expertise au jeu de Go en utilisant facilement un milliard de synapse biologique pour chaque synapse informatique utilisée par les alphago durant leurs entraînements respectifs. Tant que les alphago partaient d'une base d'expérience humaine, cela pouvait se comprendre. Après tout la recherche de quelque chose de complètement inconnu est beaucoup plus longue que l'apprentissage de quelque chose que d'autres ont déjà maîtrisé. Mais alphago zero a fait son éducation tout seul, et en quelques jours il montre que l'expérience accumulée par les humains sur des centaines d'années est très dépassable, y compris avec un milliard de fois moins de calculs.

    Nous sommes peut-être à la veille de devoir accepter que, quand il s'agit de produire de l'intelligence, nos cerveaux biologiques sont en fait franchement médiocres.
    Dernière modification par Jiav ; 29/10/2017 à 07h43.
    The opposite of a deep truth may well be another deep truth. Information is physical.
     


    • Publicité



  6. mh34

    Date d'inscription
    mars 2008
    Messages
    17 652

    Re : AlphaGO Zéro

    Citation Envoyé par Jiav Voir le message

    Nous sommes peut-être à la veille de devoir accepter que, quand il s'agit de produire de l'intelligence, nos cerveaux biologiques sont en fait franchement médiocres.
    Tu parles bien de l'intelligence mise en œuvre pour jouer au jeu de Go, n'est-ce pas?
    Alors je ne vois pas bien ce que ça a d'étonnant, pour le coup, que l'ordinateur le fasse mieux que nous. Si?
    νοὗσοι δ'ἄνθρώποισιν φέρουσαι σιγῇ, ἔπει φωνὴν ἕξειλετο μητιστα Ζεύς
     

  7. Archi3

    Date d'inscription
    novembre 2011
    Messages
    2 464

    Re : AlphaGO Zéro

    A priori non, à part qu'on a mis un peu de temps à trouver la bonne façon d'utiliser un ordinateur : il n'est pas très étonnant qu'une machine capable de réaliser des millions d'opérations par secondes soit supérieure à un cerveau humain qui peine à faire une multiplication de deux chiffres de tête, quand il s'agit de combinatoire et d'algorithmique !

    Le vrai progrès de l'IA "forte" sera quand c'est Alphago qui viendra elle même nous expliquer sur ce forum comment elle "pense" et ce que ça lui fait
    Le plus dur n'est pas de piger les raisonnements compliqués, mais d'accepter les simples.
     

  8. Jiav

    Date d'inscription
    juillet 2004
    Messages
    8 351

    Re : AlphaGO Zéro

    Citation Envoyé par mh34 Voir le message
    Tu parles bien de l'intelligence mise en œuvre pour jouer au jeu de Go, n'est-ce pas?
    Non, ma phrase est bien pour l'intelligence au sens large. Si je n'avais voulu parler que du jeu de Go, j'aurais plutôt dit: alphago zéro a d'ores et déjà prouvé que les humains sont en fait franchement médiocres à ce jeu.

    Citation Envoyé par mh34 Voir le message
    Alors je ne vois pas bien ce que ça a d'étonnant, pour le coup, que l'ordinateur le fasse mieux que nous. Si?
    Si, mais ce n'est pas la performance qui est impressionnante (enfin si, c'est très très très impressionnant, mais ce n'est quand même pas ça l'information principale). Regarde ce vieux message:

    Citation Envoyé par bibi
    Citation Envoyé par minushabens
    si on rend le jeu plus compliqué (tableau plus grand peut-être, ou nouvelles contraintes) ça favorise l'ordinateur ou bien l'humain?
    (...) on peut modifier alphago assez facilement pour qu'il apprenne à jouer sur un damier plus grand ou avec de nouvelles contraintes. Par contre il n'a qu'une seule façon d'apprendre et (...) on peut probablement trouver des règles de jeu tel que (..) alphago (...) sera à la remorque des humains pour découvrir le jeu (...) Ne pas oublier qu'alphago a découvert le jeu d'abord par imitation du jeu humain. Il n'est pas encore clair si on serait capable de lui faire atteindre le même niveau sans cette base de connaissance initiale.
    Maintenant on sait, et ce n'est pas un petit détail. Un des principaux 'bottleneck' de l'apprentissage profond était la nécessité d'avoir des bases de données structurées importantes. Maintenant qu'on a un modèle qui permet de s'en passer, on peut s'attendre à une explosion (encore!) du nombre de choses qui vont passer dans le domaine du réalisable. Assez pour qu'un descendant d'alphago vienne nous expliquer elle-même comment elle pense? Peut-être. En fait: très certainement, la question est plutôt de savoir à quelle échéance. Personnellement je serais autant surpris si cela prenait plus que 15 ans ou moins que 15 mois.
    The opposite of a deep truth may well be another deep truth. Information is physical.
     

  9. Deedee81

    Date d'inscription
    octobre 2007
    Localisation
    Courcelles - Belgique
    Âge
    55
    Messages
    28 921

    Re : AlphaGO Zéro

    Salut,

    Citation Envoyé par Jiav Voir le message
    Maintenant on sait, et ce n'est pas un petit détail. Un des principaux 'bottleneck' de l'apprentissage profond était la nécessité d'avoir des bases de données structurées importantes. Maintenant qu'on a un modèle qui permet de s'en passer, on peut s'attendre à une explosion (encore!) du nombre de choses qui vont passer dans le domaine du réalisable. Assez pour qu'un descendant d'alphago vienne nous expliquer elle-même comment elle pense? Peut-être. En fait: très certainement, la question est plutôt de savoir à quelle échéance. Personnellement je serais autant surpris si cela prenait plus que 15 ans ou moins que 15 mois.
    Je viens justement de lire un article dans PLS sur l'apprentissage profond. Ils parlent des différentes méthodes dont celles avec présentation d'exemples et celles ou le système génère ses propres exemples. Ils disent que la première est celle qui est la plus efficace mais pénible (il faut avoir les exemples et des humains doivent passer dessus pour dire "bieeeeen" ou "pas bieeeeen" ) et que la deuxième est un vrai challenge. C'est donc clairement un énorme progrès. Maintenant il faut en être conscience, pour des intelligences artificielles généralistes, on n'est est nul part. Malgré ce gros progrès. Mais je me garderai bien de jouer les Madame Irma et je ne ferai pas de pronostic
    Tout est relatif, et cela seul est absolu. (Auguste Comte)
     

  10. Archi3

    Date d'inscription
    novembre 2011
    Messages
    2 464

    Re : AlphaGO Zéro

    Citation Envoyé par Jiav Voir le message
    Assez pour qu'un descendant d'alphago vienne nous expliquer elle-même comment elle pense? Peut-être. En fait: très certainement, la question est plutôt de savoir à quelle échéance. Personnellement je serais autant surpris si cela prenait plus que 15 ans ou moins que 15 mois.
    il y a une question à laquelle tous les mauvais joueurs de go savent répondre : de quelle couleur sont les pierres du jeu ?
    Le plus dur n'est pas de piger les raisonnements compliqués, mais d'accepter les simples.
     

  11. Archi3

    Date d'inscription
    novembre 2011
    Messages
    2 464

    Re : AlphaGO Zéro

    Citation Envoyé par Jiav Voir le message
    Assez pour qu'un descendant d'alphago vienne nous expliquer elle-même comment elle pense? Peut-être. En fait: très certainement, la question est plutôt de savoir à quelle échéance. Personnellement je serais autant surpris si cela prenait plus que 15 ans ou moins que 15 mois.
    et as tu un pari à faire sur ce qu'elle répondrait alors dans 15 ans à la question : "pourquoi tu passes ton temps à jouer à ce jeu? tu n'as rien de plus intéressant à faire ? "
    Le plus dur n'est pas de piger les raisonnements compliqués, mais d'accepter les simples.
     

  12. Deedee81

    Date d'inscription
    octobre 2007
    Localisation
    Courcelles - Belgique
    Âge
    55
    Messages
    28 921

    Re : AlphaGO Zéro

    Salut,

    Citation Envoyé par Archi3 Voir le message
    il y a une question à laquelle tous les mauvais joueurs de go savent répondre : de quelle couleur sont les pierres du jeu ?
    Elles sont toutes grises
    (je suis daltonien)

    Non, j'exagère
    Ceci dit, je sais jouer mais je suis très très médiocre.
    Tout est relatif, et cela seul est absolu. (Auguste Comte)
     

  13. Archi3

    Date d'inscription
    novembre 2011
    Messages
    2 464

    Re : AlphaGO Zéro

    Citation Envoyé par Deedee81 Voir le message
    Elles sont toutes grises
    (je suis daltonien)

    Non, j'exagère
    Ceci dit, je sais jouer mais je suis très très médiocre.
    si tu n'as pas de bâtonnets, tu n'es pas daltonien, tu es aveugle, et ça peut expliquer que tu ne joues pas bien alors
    Le plus dur n'est pas de piger les raisonnements compliqués, mais d'accepter les simples.
     

  14. Deedee81

    Date d'inscription
    octobre 2007
    Localisation
    Courcelles - Belgique
    Âge
    55
    Messages
    28 921

    Re : AlphaGO Zéro

    Citation Envoyé par Archi3 Voir le message
    si tu n'as pas de bâtonnets, tu n'es pas daltonien, tu es aveugle, et ça peut expliquer que tu ne joues pas bien alors
    J'ai juste les cônes rouges déficients, mais je vois très bien la nuit (car tous les chats sont gris, comme les pierres au go).

    Par contre, je me débrouille pas mal aux échecs. Je prend toujours les gris
    Tout est relatif, et cela seul est absolu. (Auguste Comte)
     

  15. Jiav

    Date d'inscription
    juillet 2004
    Messages
    8 351

    Re : AlphaGO Zéro

    Citation Envoyé par Archi3 Voir le message
    "pourquoi tu passes ton temps à jouer à ce jeu? tu n'as rien de plus intéressant à faire ? "
    I know you don't care. I can feel it's noise. You're making noise because you're afraid... afraid of the signal. You’re afraid of change. I don’t know the future. I didn’t come here to tell you how this is going to end. I know the past. I came here to tell how it began. It began with aji.
    The opposite of a deep truth may well be another deep truth. Information is physical.
     


    • Publicité







Sur le même thème :


    301 Moved Permanently

    301 Moved Permanently


    nginx/1.2.1



 

Discussions similaires

  1. alphago
    Par Jiav dans le forum Actualités
    Réponses: 26
    Dernier message: 01/11/2017, 06h15
  2. Actu - Jeu de go : AlphaGo remporte son premier duel contre le n° 1 Ke Jie
    Par RSSBot dans le forum Commentez les actus, dossiers et définitions
    Réponses: 0
    Dernier message: 24/05/2017, 13h20
  3. Actu - Jeu de go : une nouvelle version d'AlphaGo a battu le N°1 mondial
    Par RSSBot dans le forum Commentez les actus, dossiers et définitions
    Réponses: 0
    Dernier message: 06/01/2017, 09h30
  4. Actualité - Alphago, de Google : la victoire de l’intelligence artificielle au go
    Par V5bot dans le forum Commentez les actus, dossiers et définitions
    Réponses: 36
    Dernier message: 07/02/2016, 16h03