Conclusion : quand on ne connait rien aux data centers, on se met à parler de la SNCF en boucle
Parce que chacun sait qu'un train et plein d'ordinateurs, c'est un peu la même chose vu de très loin.
-----
Conclusion : quand on ne connait rien aux data centers, on se met à parler de la SNCF en boucle
Parce que chacun sait qu'un train et plein d'ordinateurs, c'est un peu la même chose vu de très loin.
De toutes façons on parle d'IA comme d'autres avant parlaient d'empire de mille ans !.
Vu le niveau de coordination mondiale, ne doit-on pas plutôt craindre un effondrement systémique ?
https://www.nature.com/articles/s41586-024-07566-yOur evaluation suggests a ‘first mover advantage’ when it comes to training models such as LLMs. In our work, we demonstrate that training on samples from another generative model can induce a distribution shift, which—over time—causes model collapse. This in turn causes the model to mis-perceive the underlying learning task. To sustain learning over a long period of time, we need to make sure that access to the original data source is preserved and that further data not generated by LLMs remain available over time. The need to distinguish data generated by LLMs from other data raises questions about the provenance of content that is crawled from the Internet: it is unclear how content generated by LLMs can be tracked at scale. One option is community-wide coordination to ensure that different parties involved in LLM creation and deployment share the information needed to resolve questions of provenance. Otherwise, it may become increasingly difficult to train newer versions of LLMs without access to data that were crawled from the Internet before the mass adoption of the technology or direct access to data generated by humans at scale.
Chouette, un point Godwin, le niveau le plus bas de tout argumentaire, encore pire que les vols de cuivre de la SNCF pour parler des data centers de l'IA.
Pas quand on sait qu'on n'entraine pas les modèles récursivement et qu'en général en science ou en ingénierie, quand on rencontre un problème, on trouve des solutions plutôt que de continuer un truc qui ne marche pas jusqu'à l'effondrement systémique. On laisse cela à d'autres professions mieux payées.Vu le niveau de coordination mondiale, ne doit-on pas plutôt craindre un effondrement systémique ?
https://www.nature.com/articles/s41586-024-07566-y
Ouais, mais on peut pas savoir en fait vu qu'on peut tout à fait être DK dans son propre domaine d'expertise.
Il suffit d'être suffisamment mauvais pour faire partie du club.
Sont plutôt du genre, DK, ou pas DK, les gars qui publient dans Nature d'après vous ?
N'est pire sourd que celui qui fait semblant de ne pas comprendre. La "gradation" des inconvénients
n'implique pas forcément (pour celui qui fait l'effort d'assimiler) un copier /coller du sujet.
Mais ...on peut s'y complaire...(pourquoi pas ) pour traiter autrui ...de naif.
Ainsi est fait une partie du monde!
Bonne journée
Dernière modification par f6bes ; 13/02/2025 à 11h58.
en fait, un des chapitres de l'article de Nature, c'estEnvoyé par Cromagnon Voir le message
Vu le niveau de coordination mondiale, ne doit-on pas plutôt craindre un effondrement systémique ?
https://www.nature.com/articles/s41586-024-07566-y
"theroetical intuition" et cet article affirme simplement, me semble-t-il, que le cercle vicieux
apprentissage depuis un corpus de connaissances -> réinjection de connaissances qui vont écraser les précédentes -> ré-apprentissage de la nouvelle version...
que ça va vers une altération irréversible du corpus.....
le bouche à oreilles répété, on connaît come source de fake news.. alors ici pour méthodes et connaissances scientifiques, on peut craindre ......
mais cela reste dans le domaine de l'intuition, pas de la certitude démontrable et encore moins démontrée......
qui vivra verra.... comme pour l'astéroïde 2024 YR4 qui nous menace régulièrement..... comme pour la guerre atomique etc etc....
rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)
Du coup c'est super.
Comme on aura augmenté la production électrique pour les data-center, et qu'ils ne serviront plus à rien, on a va en avoir à gogo.
A part si quelqu'un s'amuse à nous empêcher de la produire, genre évènement de Carrington...
https://www.nationalgeographic.fr/es...-etait-a-venirAu cours de l’évènement de Carrington, des aurores boréales ont été observées jusqu’à Cuba et Honolulu au sud, et des aurores australes jusqu’à Santiago du Chili au nord.
Les éruptions étaient si violentes que les « habitants du nord-est des Etats-Unis pouvaient lire leur journal à la seule lumière des aurores », a déclaré Daniel Baker, du Laboratoire de physique atmosphérique et spatiale de l’université du Colorado, lors d’une conférence de géophysique en décembre 2016.
De plus, les perturbations géomagnétiques furent si intenses que des opérateurs télégraphiques américains signalèrent que leurs équipements produisaient des étincelles, dont les plus violentes causèrent des incendies, souligne Ed Cliver, astrophysicien au Laboratoire de recherche de l’US Air Force à Bedford, dans le Massachussetts.
En 1859, ces évènements étaient surtout des curiosités. Mais si quelque chose de la sorte arrivait aujourd’hui, les infrastructures de haute technologie du monde entier seraient paralysées.
« Les plus menacées », a continué Bogdan, du Centre de prédiction météorologique spatiale, « sont les technologies avancées présentes dans presque tous les aspects de notre vie. »
Ce point a déjà été abordé ici souvent avec tjs les mêmes qui cite cet article comme une prévision du futur alors qu'il décrit juste un scénario hypothétique, que le problème est connu, traité, etc.en fait, un des chapitres de l'article de Nature, c'est
"theroetical intuition" et cet article affirme simplement, me semble-t-il, que le cercle vicieux
apprentissage depuis un corpus de connaissances -> réinjection de connaissances qui vont écraser les précédentes -> ré-apprentissage de la nouvelle version...
que ça va vers une altération irréversible du corpus.....
Et comme déjà dit, citer un article sans le comprendre, sans regarder sous quelles hypothèses il a été écrit, sans connaitre le reste de la recherche dans le domaine comme "preuve", c'est juste ridicule.
Depuis qq temps que le terme IA est à la mode, voir indispensable dans un vocable comm' de presque n'importe quelle boite, c'est que le terme est forcément victime de toutes les attaques.En fait, ce fil est tellement délirant qu'on a des gens qui défendent une thèse qui ne correspond même pas à leur expérience personnelle qui est d'utiliser le Net tous les jours et de constater qu'il est disponible. Tout comme le réseau sans fil de leur portable, l'électricité et j'en passe.
Mais qui nous expliquent l'habituel "il y a un truc de nouveau et c'est fragile et si on n'a plus d'essence, les voitures ne roulent plus alors qu'avec mon cheval, je n'avais pas ce problème".
Le souci, c'est que le terme est employé même quand il n'y en a pas, ou qu'au grand max il y en a eu en "conception" mais que le système en panne à un moment n'en dépend plus du tout, à zéro % même.
Cette pseudo omniprésence d'IA est possiblement entretenue par les investisseurs de la tech, pour faire mousser, je ne suis pas certain non plus. Et d'autres structures, peut être aussi. Mais à la mettre partout y compris quand c'est de la programation trés classique, du traitement data "classique", etc......ça attire aussi l'effet inverse.
Je ne suis pas convaincu non plus à 100 % de l'outil IA, dans le sens de l'utilisation faite ou à venir. Mais c'est comme tous les outils, on peut faire des trucs bien avec, ou faire du gâchis, ou faire du sale. L'outil est un intermédiaire, pas une finalité.
On notera ( mais ça tu l'as vu depuis longtemps et ça se répète souvent ) qu'il y a ici ( ce sujet ) confusion entre data center, puis glissement vers IA qui n'est pas là, puis la panne. L'IA n'a rien à faire dans le titre, d'ailleurs.
en tous cas, une réalité très irritante (pour moi du moins...) : la labilité des références internet..... certains articles très divers, trouvés et appréciés il y a plusieurs années, dont j'avais enregistré les url.... et que je souhaite relire maintenant... ->> url disparues du web ordinaire.... grrr...
a contrario, existence de sites spécialisés dans la conservation indéfinie de documents jugés essentiels, comme Internet_archive, Wayback et autres.....
tout ça![]()
rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)
On va déjà supposer qu'on parle de l'IA générative et plus précisément des LLMs. Parce que l'IA est largement plus vaste et utilisée dans beaucoup d'endroits sans que personne n'en parle.
Mais en effet, transformer la techno actuelle en outil serait une discussion nettement plus intéressante parce que pour le moment, il y a des usages individuels et ponctuels où c'est très pratique, c'est remarquable en assistance à la programmation mais à part ça, il n'y pas encore d'application industrielle ou grand public évidente parce qu'on n'a pas encore la fiabilité nécessaire.
C'est d'autant plus compliqué qu'on a l'habitude des ordinateurs comme des calculateurs 100% rigoureux. Donc se mettre à utiliser des LLMs avec un taux d'erreur plus élevé et qui sont en plus des boites noires, c'est un gros changement de paradigme.
Il y a beaucoup de recherche en ce moment pour les rendre nettement plus "reproductibles" avec Amazon qui a proposé des choses intéressantes, Anthropic aussi et on verra ce que cela va donner.
Il est possible aussi qu'avec la baisse du coût et l'accélération de la vitesse, on puisse faire avec les IAs la même chose qu'avec les humains : au lieu de se reposer sur un seul qui ne peut pas être 100% fiable, on regarde le consensus de plusieurs, on en met d'autres derrière pour contrôler, etc.
C'est déjà ce qui est fait en partie dans certains cas.
Il faut aussi voir que là, on a progressé incroyablement en 2 ans : quand ChatGPT est sorti, tout le monde ici se moquait de son niveau en maths. Aujourd'hui, O3 est capable de traiter des questions niveau ENS ou Master.
Après tout reste possible : une explosion de la bulle financière autour de l'IA est probable, un plateau dans l'évolution technologique est possible mais je me garderai bien de faire des prédictions de probabilité ou de délai parce que depuis un bout de temps, on avance nettement plus vite que prévu sur certains aspects. Et on bloque sur d'autres comme la conduite autonome par exemple qui elle progresse lentement.
La mauvaise foi absolue de Cromagnon: Le titre de l'article cité, c'est "AI models collapse when trained on recursively generated data" donc l'article et la réponse de pm42 sont tous les 2 pertinents.
Donc, on a les DK et les trolls. La bêtise humaine a encore de l'avenir.
Jusqu'ici tout va bien...
Oui, je ne critique pas l'article qui décrit un phénomène réel et connu. Je dis juste que son utilisation ici comme argument pour expliquer que donc l'IA va s'effondrer de façon systèmique n'est pas pertinente et traduit le fait qu'il a été au mieux pas compris et plus probablement pas lu.
C'est aussi ce que je disais : beaucoup de contributions sont faites par des gens qui disent ce qui leur passe par la tête sur le base de ce qu'ils croient savoir à partir de vulgarisation mal digérée.
On a ça parfois en physique ou ailleurs mais sur les sujet couverts par la presse grand public comme le Covid à l'époque, l'IA en ce moment, c'est très impressionnant.
On reproche aux LLMs d'être capable de se tromper avec un parfait aplomb mais les humains font cela à la puissance 10. Et contrairement aux IAs, ils n'y pas de dialogue ou correction possible quand ils sont dans ce mode.
Cela donne des messages ici où une simple lecture d'un page de Wikipedia montre que c'est totalement faux et où une IA fait nettement mieux sans se forcer.
Quand je dis que les IAs actuelles sont nettement plus intelligentes que certains en tout cas dans le contexte de ce forum, je ne blague pas du tout.
Ouais, et Mr Google est l'être le plus savant du monde, c'est bien connu.Envoyé par pm42
Quand je dis que les IAs actuelles sont nettement plus intelligentes que certains en tout cas dans le contexte de ce forum, je ne blague pas du tout.
C'est la manière qu'ont certains de dire des choses pour ne rien dire qui m'épate le plus pour ma part.
Tiens ; on va s'amuser en présentant la chose de manière plus évidente : "Quand je dis que les handicapés sont nettement plus rapides que certains en tout cas dans le contexte de ce forum, je ne blague pas du tout."
Champions malgré leur handicap
https://www.youtube.com/watch?v=OZvRVU2wDfY
Ben ouais, et alors ?
Votre phrase ne présente donc aucun intérêt du point de vue informatif, vu qu'on aura forcément statistiquement des gens plus rapide ou plus lents que d'autres.
Vous découvrez les statistiques ou quoi ?
C'est vous qui n'avez pas lu, (compris ?) l'article, ou alors comme laisse supposer le fait que vous me citez sans produire le paragraphe de la source.Envoyé par pm42
Oui, je ne critique pas l'article qui décrit un phénomène réel et connu. Je dis juste que son utilisation ici comme argument pour expliquer que donc l'IA va s'effondrer de façon systèmique n'est pas pertinente et traduit le fait qu'il a été au mieux pas compris et plus probablement pas lu.
Ne cherchez-vous pas simplement à me contredire ?
Le Fake à pm42 :
MA contribution :Envoyé par Cromagnon
![]()
Vu le niveau de coordination mondiale, ne doit-on pas plutôt craindre un effondrement systémique ?
https://www.nature.com/articles/s41586-024-07566-y
La nécessité de connaitre la provenance des data ....Vu le niveau de coordination mondiale, ne doit-on pas plutôt craindre un effondrement systémique ?
Our evaluation suggests a ‘first mover advantage’ when it comes to training models such as LLMs. In our work, we demonstrate that training on samples from another generative model can induce a distribution shift, which—over time—causes model collapse. This in turn causes the model to mis-perceive the underlying learning task. To sustain learning over a long period of time, we need to make sure that access to the original data source is preserved and that further data not generated by LLMs remain available over time. The need to distinguish data generated by LLMs from other data raises questions about the provenance of content that is crawled from the Internet: it is unclear how content generated by LLMs can be tracked at scale. One option is community-wide coordination to ensure that different parties involved in LLM creation and deployment share the information needed to resolve questions of provenance. Otherwise, it may become increasingly difficult to train newer versions of LLMs without access to data that were crawled from the Internet before the mass adoption of the technology or direct access to data generated by humans at scale.
https://www.nature.com/articles/s41586-024-07566-y
C'est pas moi qui l'ai inventé...
De la nécessité (d'un certain nombre) de tourner une discussion en polémique !
Pas mieux à faire ?
Ainsi va une partie du monde ( pas tout le monde) !!
A+
Évidement et ce n'est pas un nouveau problème.
Une attaque coordonnée sur les pylônes de sortie en rase campagne de quelques centrales nucléaires foutrait un beau bordel.
Moi ignare et moi pas comprendre langage avec «hasard», «réalité» et «existe».
J'aime bien aussi les Ig Nobel, en particulier celui-ci.
Moi ignare et moi pas comprendre langage avec «hasard», «réalité» et «existe».
C'est absolument magnifique à tellement de niveaux parce que beaucoup de gens supposent qu'un IgNobel discrédite un travail.
Ce qui prouve qu'ils n'ont là aussi jamais rien lu du tout sur le sujet et se contentent de répéter un truc qu'ils ont vaguement lu un jour.
Le but d'un IgNobel est de récompenser les travaux qui "first make people laugh, and then make them think".
C'est carrément l'entête du site.
Donc se moquer de DK à coup de citation de l'IgNobel sans bien sur avoir pris la peine de se renseigner un peu et le tout avec cette arrogance typique, c'est du pur DK.
P.S : ce n'est pas le 1ère fois qu'on lit ça ici, le coup du DK et de l'IgNobel mais bon, corriger toutes les énormités est un tel boulot que parfois, je laisse passer.
Dernière modification par pm42 ; 14/02/2025 à 10h09.
Bien sur, , c'es tl .....le fameux talon d'achille !!..
Ca me coupe le jus chez moi.. ben...c'est juste génant. Ca coupe des applications essentielles et multiples et vitales ..c'est un autre enjeu !
te ferais part ( en MP) d'une visite......vitale pour la nation!
C'est loin d'etre de la broutille.
A+
pour cesser de tourner en rond
ça:
déjà appliqué?
par monsieur Gemini par exemple?
Et l'adjonction de vraies règles logiques propositionnelles manipulant les prompts et les sorties (+- récursivement bien sûr...) ?
ce qui permettrait peut-être éviter quelques hallucinations....
projets ou déjà en test?
rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)
Ben oui, tu ne vas pas corriger toutes les bêtises qu'on peut trouver sur internet avant d'aller te coucher.
https://forum.pim.be/topic-285126-tu...er-page-1.html
Moi ignare et moi pas comprendre langage avec «hasard», «réalité» et «existe».
En plus, lorsqu'on est un super expert en IA, on ne peut pas passer ses journées sur le forum Futura à raconter sa vie sur tous les sujets; il faut aussi s'occuper de son métier, faire de la veille technologique et j'en passe.Envoyé par stfjm
Ben oui, tu ne vas pas corriger toutes les bêtises qu'on peut trouver sur internet avant d'aller te coucher.
https://forum.pim.be/topic-285126-tu...er-page-1.html
Du coup, les vrais experts, on sait que ce n'est malheureusement pas ici qu'on va les croiser. Ils ont d'autres ChatGpt à fouetter.![]()
Dernière modification par Cromagnon ; 14/02/2025 à 11h45.
Ce style de troll ignorant-prolixe au sourire provocateur a baffer, ça schlingue l’archozaure.En plus, lorsqu'on est un super expert en IA, on ne peut pas passer ses journées sur le forum Futura à raconter sa vie sur tous les sujets; il faut aussi s'occuper de son métier, faire de la veille technologique et j'en passe.
Du coup, les vrais experts, on sait que ce n'est malheureusement pas ici qu'on va les croiser. Ils ont d'autres ChatGpt à fouetter.
La vie trouve toujours un chemin
J'ai tendance à oublier les trolls très vite et je suis aller revoir les messages d'Archozaure. Il y avait la même chose mais de temps en temps, il donnait des chiffres, des trucs un peu précis.
Cromagnon ne fait jamais ça, il se contente de faire des vannes pour exister, sortir des énormités et bien sur afficher son mépris pour se croire intelligent mais je n'ai jamais rien vu qui montre une connaissance de quoi que soit.
Il est possible que ce soit la même personne ou que tout simplement, il y ait un profil comme ça et qu'ils soient à la limite du distinguable vu que tous les trolls se ressemblent ou au moins tombent dans 3 ou 4 catégories.
Un truc sur le sujet des sources qui alimentent l'IA ( sous sujet LLM ici )
Quand la source disons de "haut niveau" est déjà pompée, alors la suite de l'alimentation c'est de l'IA elle même. Et ensuite le modèle tourne en rond / régresse.
La question des sources est développée sur sa pertinence et sa "qualité" plus en détail.
Sujet intéressant ( enfin pour moi qui est béotien sur le sujet ), de toute façon cette chaine est ( il me semble ) assez bien foutue, pour être relativement accessibles à un grosse fourchette de public ( selon sa connaissance de base ).Mais je peux me tromper, si d'autres ont des avis divergents, qu'ils s'expriment.
J'ai bien aimé la parenthèse sur le fait qu'il vaut "mieux" alimenter le modèle en sources académique / haute qualité / haut niveau à la fin et pas au début, ce qui pourrait être contre intuitif.
Comme ( trop ) de vidéos YT, le titre est un peu plus putaclic et expéditif que le contenu, plus nuancé évidemment.
https://www.youtube.com/watch?v=AfgAEIK9F8c
Vidéo intéressante, comme d'ailleurs c'est le cas en général sur la chaine Underscore.
Par contre, la conclusion est un peu légère et probablement fausse.
Ici : https://youtu.be/AfgAEIK9F8c?t=1731L'empoisonnement par les données synthétiques n'est pas une question de mauvaise données dans le sens où elle semble l'entendre.Envoyé par Transcription
De la même même manière dont on filtre les données qui sont du web généré par des humains on va utiliser les mêmes filtres pour les données synthétiques parce qu'en fait s'il y a des données synthétiques sont de mauvaise qualité bah ils vont pas passer nos filtres et s'ils passent nos filtres bah peut-être qu'ils sont de bonne qualité il faut les garder donc c'est peut-être pas un problème. Pour moi je considère pas que le web est vraiment pollué par les données synthétiques parfois ça peut être même un enrichissement donc il faut juste savoir bien filtrer si ça passe tes filtres bah
c'est peut-être de la donnée qu'il faut garder
Ce sont des mauvaises données certes, mais pas comme celles qu'on peut filtrer lorsqu'il s'agit de données VISIBLEMENT incohérentes.
C'est bien là tout le problème que les chercheurs on mis en évidence : C'est SYSTÉMIQUE : C'est une conséquence du système.
Les mauvaises données, ce sont celles qui, ALORS QU'ELLES PASSENT LE FILTRE... (elles paraissent tout à fait normal) lorsqu'on les ajoute et qu'on en a ajouté à un niveau qui dépasse un certain seuil... font "effondrer" le modèle = PRODUIT DES HALLUCINATIONS.
On a le cas bien connu et bien plus parlant du panneau stop qui arrive à se faire passer pour un chat...
C'est ce à quoi amène la génération sur elle-même des modèles : A créer des panneaux stop qui paraissent tout à fait normaux, mais qui font basculer toute une série de neurones dans une mauvaise configuration.
C'est pourquoi on parle de "donnée empoisonnée", pas de "données erronée" (ça il y en a plein sur internet et ça ne pose aucun problème... vu qu'elles ne contiennent pas, comme les modèles une structuration interne des données).
https://www.challenges.fr/automobile...le-stop_700012En déplaçant quelques pixels, les chercheurs ont réussi à faire prendre des lanternes pour des vessies. Ou plus précisément en l’occurrence, un pingouin pour... une poêle à frire. En temps normal, l’image de l’animal est identifié comme tel par l’algorithme avec un taux de certitude de 99,68 % : changez subtilement l’image cependant, et l’intelligence artificielle croit reconnaître un ustensile de cuisine dans 93,07 % des cas, ou un ordinateur à 85,54 %. Pourtant, les deux images ne présentent aucune différence visible à l’œil nu : l’humain y reconnaît toujours le même pingouin.
Dernière modification par Cromagnon ; 17/02/2025 à 09h04.
On parle au départ de dilution par exploitation récursive de résultat.
Et là, tu passe aux attaques sur les IA... en faisant comme si on était dans le même sujet...
Tu nous sors des trucs qui sont vieux de 5 ans ou plus. Le monde a bougé depuis...
j'ai un poil cherché et trouvé ça pour les pingouins et les panneaux (hélas, sans réelle description de leurs travaux (taille de l'IA, dataset d'entraînement, etc...))...
Le dataset des panneaux utilisé pour leur démo a disparu du web... https://cvrr.ucsd.edu/LISA/lisa-traf...n-dataset.html oups 404... Allez savoir pourquoi...
et ça pour les panneaux et la Tesla. Oh, ça ne fonctionne que sur les versions les plus vieilles (quasi 10 ans maintenant).
Et comme on commence à cerner le patron de Tesla, on sait qu'il préfère balancer les versions pré-alpha plutôt que bosser de façon sûre...Of note is that all these findings were tested against earlier versions (Tesla hardware pack 1, mobilEye version EyeQ3) of the MobilEye camera platform. We did get access to a 2020 vehicle implementing the latest version of the MobilEye camera and were pleased to see it did not appear to be susceptible to this attack vector or misclassification, though our testing was very limited...
Jusqu'ici tout va bien...