Bonjour,
Le premier est ici :
https://towardsdatascience.com/behin...s-97bd7287fb6b
L'auteur évalue le coût d'entrainer une IA conversationnelle, parle de leur historique, leurs limites, du travail de recherche autour (rapidement).
C'est abordable et intéressant.
Ils parlent aussi de LLaMA, le modèle open-source de Facebook (où travaille Yann Le Cun) qui peut tourner sur des ordinateurs perso, des Raspberry Pi et mêmes des téléphones (ce qui relativise les appels aux moratoires, etc : le génie est sorti de la bouteille).
Ce modèle qui est dans la même classe de performance que ChatGPT a nécessité 21 jours d'entrainement sur 2048 GPU A100 de Nvidia avec chacune 80 Gb de mémoire.
Ce qui donne un budget de 4 millions de dollars. C'est à la fois énorme mais pas délirant pour beaucoup d'entreprises ou de projets scientifiques.
Ce coût est bien sur amené à baisser à la fois sous l'effet des progrès des GPU et avec celui des techniques d'apprentissages.
Ce n'est toutefois que le coût d'entrainement : celui de l'acquisition et la préparation des données et de la recherche sur le modèle n'a rien à voir.
Le coût d'utilisation n'a rien à voir bien sur (cf. plus la possibilité de le faire tourner sur un Raspberry).
Mais là aussi, la recherche pour le faire baisser quand on utilise ces modèles à grande échelle est détaillée dans l'article.
L'autre article est largement plus pointu : https://arxiv.org/pdf/2303.17564.pdf
Il est intéressant à parcourir ne serait que pour se donner une idée de l'ampleur de la recherche sur le sujet et des résultats déjà obtenus.
Même si le domaine n'est pas le plus intéressant ici, l'approche l'est.
L'idée est de dire que pour le moment, on fait soit des IAs ultra-généralistes (type ChatGPT) soit des IAs ultra-spécialisées sur un domaine.
Là, ils ont essayé et réussi à faire une IA qui utilise la même approche que les généralistes, c'est à dire un énorme réseau entrainé sur un corpus tout aussi gros mais spécialisé dans un domaine.
On y apprend des choses intéressantes :
- ils s'appuient massivement sur des travaux publics et de l'open-source
- et ce y compris des corpus d'apprentissages publics
- quand GPT-3 est sorti, d'autres chercheurs ont essayé de reproduire mais n'arrivaient pas aux mêmes performances. Toute l'info n'était pas disponible mais au fil du temps, la communauté scientifique rattrape son retard
- entrainer un GPT-3 ou plus a nécessité de très grosses équipes. Ils ont constaté que par contre, en s'appuyant sur l'existant, ils avaient réussi à entrainer une IA plus spécialisée avec une équipe de taille moyenne
- pour le moment, ils n'intègrent pas la date des publications dans l'apprentissage mais c'est un axe de leur recherche
- ici aussi, récupérer la donnée, la mettre en forme et garantir sa qualité a été "non trivial".
Au final, ils disposent d'une IA multi-tâche mais spécialisée, un peu comme un humain expert d'un domaine.
Elle permet des tâches très différente comme:
- transformer des requêtes en langage naturel dans celui informatique de Bloomberg (qui est spécifique)
- trouver de l'information dans des documents non structurés ("à quelles autres sociétés ce rapport annuel d'une boite qui fait des centaines de pages fait il référence ?")
- analyser le "sentiment" autour d'une société. C'est un gros sujet de recherche où le but est de faire ce que font certains humains, "sentir" le consensus des autres et donc du marché. Il existe des applications hors finance bien sur dès qu'il s'agit de capter l'état d'esprit d'un groupe.
Ce qui est intéressant, c'est que cette approche pourra sans doute être élargie à d'autres domaines par exemple en entrainant une IA sur Arxiv ou des archives d'articles scientifiques (modulo les problèmes de droit) et être capable ensuite de poser des questions et d'avoir des réponses pertinentes.
Quand à "citer ses sources" ce qui serait indispensable dans le cas d'une IA qui travaillerait sur des textes scientifiques, la recherche a déjà avancé sur le sujet : https://techcrunch.com/2023/01/17/ai...s-its-sources/
-----