encore Musk..... IA, LLM, et 'données synthétiques' ?
Répondre à la discussion
Affichage des résultats 1 à 3 sur 3

encore Musk..... IA, LLM, et 'données synthétiques' ?



  1. #1
    Bounoume

    encore Musk..... IA, LLM, et 'données synthétiques' ?


    ------

    l'opinion ambigüe:
    https://www.futura-sciences.com/tech...maines-118724/
    le titre:

    Elon Musk a évoqué le problème de la pénurie des données pour l’entraînement des intelligences artificielles. La solution résiderait dans des données synthétiques, ce qui n’est pas sans risque…
    De quelles 'données synthétiques' s'agit-il?
    faire la 'synthèse' de multiples documents traitant +- bien d'un sujet défini... pour le documentaliste, c'est la 'compilation' de l'existant.... On demande ça aussi à des étudiants.... ils résument et mettent bout à bout des propositions pas trop contradictoires.... et monsieur Chat-gpt ou mr O3 ou autres LLM savent faire.....
    résumés de textes, reproduisant plus ou moins les idées (originales, éventuellement) des auteurs.....

    Alors, est-ce l'idée du gourou, de prendre ces résumés comme données d'apprentissage initial, ou de les refiler ensuite quand l'apprentissage a déjà tout parcouru sur le NET?
    ça ajoute quoi de nouveau? simple économie de ressources pour remplacer la compilation massive de tout le NET.... ce que dit d'ailleurs l'article cité....

    Mais il y a aussi des données synthétiques d'autres espèces......
    la première:
    Une nouvelle théorie scientifique.... construite par la ré-organisation et des déductions bien choisies , sur un chemin nouveau et très improbable, jamais explicitement exploré......
    donc impossible à extraire du corpus existant.... puisque jusque là le travail n'avait jamais été conduit.........

    évènements rares, bien sûr..... et qui vont demander ensuite une validation (à la charge de l'IA ).... Bôf.....
    ce ne doit pas être l'idée d'Elon....


    les autres synthèses....
    dans les livres d'école, du petit enfant aux classes prépa..... dans les bibliothèques, les enseignements universitaires....
    les présentations des connaissances fondamentales de chaque science, organisées pour l'enseignement à des humains 'naïfs'*
    Serait-ce à ces informations structurées dans une logique constructive propre aux 'maîtres' du savoir, que Elon voudrait faire ingérer à ses IA?

    Au début de l'apprentissage, avant le désordre apparent du Net? Exclusivement?
    Ou en supplément de la masse peu structurée initiale? rapport possible avec le CoT ? pour structurer 'rationnellement' la démarche??
    ....
    Qui pourrait nous éclairer un peu mieux là-dessus?




    *naifs, comme la souris des experiences comportementales.... qui ne sait pas encore où on va la mener.....

    -----
    rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)

  2. #2
    pm42

    Re : encore Musk..... IA, LLM, et 'données synthétiques' ?

    Citation Envoyé par Bounoume Voir le message
    l'opinion ambigüe:
    https://www.futura-sciences.com/tech...maines-118724/De quelles 'données synthétiques' s'agit-il?
    C'est assez simple : les progrès récents des LLMs ont reposé en grande partie sur la "scalabilité". C'est à dire qu'on a construit des modèles de plus en plus gros en nombres de paramètres et on les a entrainé sur des corpus de données de plus en plus gros aussi.
    Cela a très bien marché.

    Mais actuellement, on sait qu'on approche de la limite parce que les derniers modèles ont été entrainés sur pratiquement tout Internet.
    Donc on cherche des solutions et dans plusieurs directions :
    - entrainer sur moins de données mais filtrées pour être de bonne qualité, améliorer le rapport signal/bruit en quelque sort. Un des problèmes est "comment filtrer efficacement, rapidement avec un coût raisonnable ?"
    - être plus efficace à quantité de données équivalentes avec de nouvelles architectures de réseau de neurones. Il y a des travaux intéressants mais ce n'est pas du très court terme
    - utiliser des données synthétiques pour augmenter la masse de données dont on dispose

    Cette dernière technique, les données synthétiques est tout sauf nouvelle. C'est juste que la presse grand public vient de la découvrir.
    On l'a utilisé dans pas mal de choses :
    - pour entrainer des IA à conduire des voitures autonomes. Au lieu de le faire en réel, on les fait jouer à des jeux vidéos "réalistes" comme GTA
    - pour des usages précis comme par exemple reconnaitre les étincelles des pantographes sur les caténaires : comme on n'a pas assez de photos réelles, on en a créé sur la base des exemples physiquement réalistes et ça marche
    - quand on doit entrainer une IA sur ce qu'on appele un espace déséquilibré. Supposons qu'on doive apprendre à détecter quelque chose qui se produit dans 1% des cas. L'IA va constater que si elle prédit tout le temps le cas majoritaire, elle à raison 99% du temps et que c'est une excellente performance. Donc on construit là aussi un espace artificiel ou le nombre de cas à prédire est plus grand, entre 10 et 30% par exemple et l'apprentissage se met à marcher. A titre perso, j'utilise ça depuis des années.

    Pour créer les dites données synthétiques dans le cas des LLMs, on utilise effectivement d'autres IAs, des LLMs entrainées pour ça et il y a un certain nombres de techniques et critères pour s'assurer que le résultat est de bonne qualité.

    NVidia propose des outils open-source : https://blogs.nvidia.com/blog/nemotr...n-llm-training, LLama 3.1 de Meta fait ça aussi : https://towardsdatascience.com/creat...g-9afc22fb6eef et il y a plein de papiers sur le sujet : https://github.com/wasiahmad/Awesome-LLM-Synthetic-Data

  3. #3
    Bounoume

    Re : encore Musk..... IA, LLM, et 'données synthétiques' ?

    Merci de ces précisions.
    C'est la polysémie du mot 'synthétique' qui m'avait perturbé.....
    entre la production de données artificielles.... qui sont de la synthèse d'informations.....
    et la compilation de plusieurs textes pour en faire un résumé synthétique....
    ce n'est pas pareil....
    rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)

  • Discussions similaires

    1. Elon Musk VS von Braun...
      Par Lockheed dans le forum Astronautique
      Réponses: 5
      Dernier message: 23/03/2024, 16h43
    2. Production de diamants synthetiques.
      Par Yvan_Delaserge dans le forum Chimie
      Réponses: 5
      Dernier message: 26/09/2020, 18h37
    3. parfums synthétiques
      Par invite9b44f920 dans le forum Chimie
      Réponses: 8
      Dernier message: 22/03/2006, 21h49