Bonjour à vous,
J'ai développé un algo de réseau de neurones, initialement prévu pour faire de la reconnaissance d'écriture (en utilisant la base de donnée de chiffres manuscrit MNIST) et j'ai obtenu de bon résultat (97% de reconnaissance sur 10000 chiffres inconnus)
J'ai utilisé la méthode normal : je soumet l'image d'un chiffre, le réseau me donne une sortie et je "rétro-propage" l'erreur par rapport à ce qui est attendu.
Jusque là, tout fonctionne à merveille.
Aujourd'hui, je souhaite apprendre à un réseau à jouer à un jeu (je commence par du morpion, c'est plutôt basique). Mais voila je ne sais pas trop comment m'y prendre :
A quel moment lui rétro-propager une erreur ? Un coup au moment d'être joué n'est pas forcement bon ou mauvais, seul l'issue de la partie nous le dira.
Mais si il perds on ne peux pas non-plus lui dire que toutes les positions de la partie étaient mauvaises.... Je sèche un peu.
Avez-vous des idées ou des liens vers de la documentations la-dessus ?
Je vous remercie,
-----