bonjour,
même si la question pourrait être mieux classée dans 'lectures scientifiques' ?? la voici:
ayant découvert sur github.io la description à la fois complète et accessible* du "transformer" en mode production (une fois l' apprentissage complet) je ne trouve rien sur le mécanisme qui permet l'apprentissage depuis des exemples.....
rétropropagation de gradient? euh ? pour les couches feed-forward? euh ??? mais pour les données qui gouvernent Attention, pour moi, ça coïnce.....
pouvez-vous me documenter sur le dits mécanismes d'apprentissage possibles pour un transformer typique?
merci d'avance
remarque: la page wiki https://fr.abcdef.wiki/wiki/Transfor...earning_model) est en fait une reprise incomplète de l'excellent article
http://jalammar.github.io/illustrated-transformer/
article qui décrit très bien la structure codage/décodage/attention, mais ne parle pas de l'apprentissage en lui-même....
*à un individu qui a seulement les notions de base sur matrices et calculs vectoriels.....
-----