La conscience des LLMs

**jiherve** · 21/11/2024, 18h26

re
çà je ne connaissais pas , belle optimisation, et en effet ce n'est pas fondamentalement différend ,la precision des calculs pouvant être ajustée sur certains modèles, mais en consommation et vitesse là il n'y a pas photo.

JR

**Cromagnon** · 21/11/2024, 19h13

Envoyé par polo974

Et puis, le LLM n'est qu'une partie de l'IA.
Il y a d'autres branches plus efficaces pour la vision ou l'audition qui sont des sens qui sont déjà exploités par des IA. Il, n'y a pas que chatgpt et consors dans la famille Adams, heu, pardon IA...
(Je précise que la référence à la famille Adams est une boutade, vu comment certains caricaturent, méprisent et rejettent l'IA.)

On est d'accord, mais le post fait référence aux LLM, donc si on veut éviter de s'éparpiller il vaut peut-être mieux en rester là. (on peut aussi parler des robots IA mais c'est un autre sujet qui pourrait éventuellement amener à des conclusions différentes).

Envoyé par polo974

De ce que j'ai lu (mais ça bouge si vite...), les plus grosses IA LLM ont environ autant de neurones qu'un chien (soit 2 fois plus qu'un chat), mais ils sont tous utilisés pour "pondre du texte", ce qui n'est pas l'activité principale d'un chien.
Et l'autre jour chatgpt a expliqué très "professionnellement" la fonction d'une une commade sed bien sentie (un affreux truc d'informatien) à un collègue. Personne au boulot n'aurait fait mieux (en fait, personne à part moi n'aurait pu donner un début d'explication).

Plus précisément, les LLM ont autant de neurones virtuels ("informatiques", ce sont juste des données) que les êtres vivants auraient de neurones réels.
Ces deux types de neurones n'ayant ici qu'un très vague rapport du point de vue de leur fonctionnement et aucun du point de vue de leur constitution il peut paraitre étrange d'en faire la comparaison.

Je reviens d'ailleurs à ce sujet à ma question à laquelle personne ne semble avoir trouvé de réponse :

Envoyé par Cromagnon

Si vous simulez le mouvement des particules sur un ordinateur, donc que vous produisez un modèle fonctionnel de la chaleur.
Pensez-vous que vous avez produit de la chaleur et que vous pourrez un jour vous servir de votre programme pour faire réchauffer vos plats ?

Si on imagine que le fait de simuler un processus fonctionnel, comme ici de l'intelligence sur la base d'un LLM, dans une application.
Si on simule le monde qui va avec, par exemple les particules avec ce même soin du détail que pour l'IA, leur desordre et leurs interactions... comment se fait-il que nous pouvons nous persuader que l'avatar IA ainsi formé puisse faire preuve de conscience, alors qu'il parait (du moins je l'espère) tout à fait évident qu'aucune propriété physique n'émergera jamais de cette même simulation ?

Pourquoi cette double considération ?
D'un côté la conscience pourrait émerger de la simulation mais la chaleur non.
Ce serait bien pratique me diriez-vous car en changeant quelques bits on pourrait produire de la chaleur à l'infini et fini la crise énergétique.

Le mental serait en dehors du champ matériel ?

**Bounoume** · 21/11/2024, 19h18

ah la réalité des mondes virtuels... c'est une autre histoire..

mais pour le parallélisme de fait, la messe est dite....
Le temps des systèmes experts interrogeant et déduisant logiquement (et séquentiellement) de petites choses, c'est fini..... même si je regrette.....
GPS, Newell, https://tecfa.unige.ch/tecfa/publica...ww/phd_43.html'
mon premier stage sur Bull PB 250 (entrées/sorties sur télétype couplée avec bande perforée, et mémoire de mass sur. bandes magnétiques.. langage algol etc...... et IBM (7044?) en fortran avec entrées sur... cartes perforées.... en 1967, puis PDP8, c'est fini....

revenons aux retours de o1-preview:
pm42, concernant l'énumération

Approches philosophiques de la conscience :
Dualisme : Cette perspective, associée à Descartes, soutient que l'esprit et le corps sont des substances distinctes. La conscience est considérée comme une propriété non physique de l'esprit.
Physicalisme : Cette approche affirme que tout est physique, y compris la conscience. Les états mentaux sont identifiés à des états cérébraux.
Fonctionnalisme : Selon cette théorie, ce qui définit un état mental n'est pas sa composition interne, mais son rôle fonctionnel dans le système cognitif. Un état mental est caractérisé par ses relations causales avec les entrées sensorielles, les autres états mentaux et les sorties comportementales.

est-ce que la liste et les contenus descriptifs ont été copiés in extenso depuis un texte identique 'appris' par le LLM, ou bien si le LLM a effectué une synthèse à partir de connaissances disséminées dans divers documents sous forme de chaînes de caractères différentes de celles qui sont dans la réponse ci-dessus?
Si 'il' a fait la synthèse tout seul, c'est bluffant....

**JPL** · 21/11/2024, 20h02

Cette discussion dans laquelle je me suis bien abstenu d’intervenir est la démonstration par l’absurde de ce qu’est ma position personnelle. Cela fait longtemps que je ne me pose plus de question métaphysique sur ce que sont et font les ordinateurs, car cela n’a aucun sens. L’informatique, ou plus exactement ceux qui l’ont créée et la font évoluer au fur et à mesure des progrès de l’électronique nous fournissent des outils de plus en plus puissants. Comme tous les outils ils ont leurs points forts où ils nous surpassent (sinon pourquoi les aurait-on créés ?) et leurs limites au-delà desquelles ils peuvent fournir des résultats aberrants ou insidieusement dangereux, si nous n’y prenons garde.

Bref ce sont des outils et rien que des outils qui ne cessent de m’émerveiller à chaque étape de leurs progrès (pensez que je suis né en 1938) mais comme tout outil il faut avoir une certaine compétence pour les utiliser à bon escient... et encore plus pour en parler de façon pertinente ! Alors cessons de nous poser des questions alakon, du genre "objets inanimés avez-vous don une âme...", comme dirait Alphonse... et ma clé à molette.

**pm42** · 21/11/2024, 20h22

Envoyé par jiherve

bien que les LLM soient des machines massivement parallèle au niveau de chaque processeur/coeur c'est du séquentiel d'un point de vue logiciel.

Celle là, il fallait la sortir.

Envoyé par Bounoume

pm42, concernant l'énumération
est-ce que la liste et les contenus descriptifs ont été copiés in extenso depuis un texte identique 'appris' par le LLM, ou bien si le LLM a effectué une synthèse à partir de connaissances disséminées dans divers documents sous forme de chaînes de caractères différentes de celles qui sont dans la réponse ci-dessus?
Si 'il' a fait la synthèse tout seul, c'est bluffant....

Il fait très bien la synthèse tout seul. C'est d'ailleurs pour cela qu'il est capable de répondre à mes questions de façon pertinente ce qu'il ne pourrait pas faire en se contentant de recopier du texte préexistant.

J'ai constaté un équivalent quand je lui ai demandé de me coder quelque chose dans un langage informatique donné ce qu'il a fait parfaitement. J'ai ensuite cherché et vérifié que cela n'avait jamais été fait par un humain dans ce langage mais seulement dans d'autres.
Hors ce genre de conversion n'est pas 100% mécanique, loin de là. Donc indépendamment du mécanisme sous-jacent, il est capable dans certains cas de prendre des concepts exprimés d'une certaine façon et de le réutiliser autrement.

On en revient toujours au même point : les IAs au sens large reproduisent les fonctions cognitives humaines dont la vision, l'ouïe, la parole et maintenant une maitrise certaine du langage.
Cette maitrise du langage suffit clairement à reproduire d'autres fonctions cognitives auxquelles on ne s'attendait pas forcément : par exemple, les concepteurs des LLMs n'avaient pas anticipé qu'ils sauraient produire du code informatique de cette qualité.

De la même façon, ils ont constaté que leurs capacités de raisonnement logique étaient très limitées mais ensuite qu'avec les bons "prompts", celles-ci augmentaient massivement.

Après, il y a eu un débat récemment justement sur le fait que les LLMs apprenaient en fait tout par coeur et donc n'avaient aucune capacité de raisonnement. Cela a fait suite à un article qui a pris un benchmark classique, GSM 8K (https://huggingface.co/datasets/openai/gsm8k) et a fait des changements :

- le premier changement a consisté à changer juste quelques mots. Cela a eu un fort impact sur certains LLMs mais les meilleurs ont vu leur performance quasi inchangée.
- le 2nd changement a consisté à augmenter le nombre d'étapes logiques nécessaires pour répondre aux questions. La baisse de performance a été sensible mais le meilleur n'a baissé "que" de 17%.

C'est intéressant et il faut prendre en compte :
- que cela teste les LLMs sur quelque chose où ils sont faibles : le raisonnement mathématique
- qu'on n'a pas de benchmark sur des humains pour comparer

Mais vu que le GSM-8K est du niveau collège en gros, cela permet de situer les LLMs actuels : en raisonnement pur, ils sont un élève correct en maths au collège. En utilisant la mémorisation, l'équivalent du bachotage, il sont très correct niveau lycée.

Il faut aussi se rappeler qu'il y a 4 ou 5 ans, ils avaient en gros l'équivalent d'un gamin de primaire au mieux. L'évolution a été rapide.
Par contre, on ne sait pas si la prochaine génération va être devant et quand : pour le moment, il semble que l'approche brute qui consiste à entrainer de plus gros LLMs sur plus de données ne permettent pas vraiment d'aller plus loin que le niveau actuel d'après les fuites informelles des sociétés qui les créent. Mais cela peut très bien changer (ou pas) d'ici quelques mois.

**jiherve** · 21/11/2024, 20h37

Bonsoir,

Celle là, il fallait la sortir.

Tu ne sembles donc rien connaitre au fonctionnement d'un processeur et cela ne m’étonne pas!
Toi, si prompt, à ridiculiser tes interlocuteurs au nom de tes connaissances tu viens de t'aventurer dans mon domaine d'expertise, quand j’écris au niveau logiciel c'est au niveau des instructions, tu sais les trucs codés en binaire générés par le compilateur et exécutés par le hard du processeur (qui lui est forcement parallele au niveau le plus bas).
Aller encore un effort et tu comprendras comment fonctionne un processeur quel qu’il soit.
JR

**pm42** · 21/11/2024, 20h46

Envoyé par jiherve

Toi, si prompt, à ridiculiser tes interlocuteurs au nom de tes connaissances tu viens de t'aventurer dans mon domaine d'expertise, quand j’écris au niveau logiciel c'est au niveau des instructions, tu sais les trucs codés en binaire générés par le compilateur et exécutés par le hard du processeur

Et donc le logiciel des IAs est séquentiel ? C'est ce que tu as écrit plus haut. J'ai effectivement du mal à te comprendre : tu parles d'abord de logiciel puis tu expliques que cela a à voir avec le fonctionnement du processeur ?
Tu es sur que c'est clair dans ta tête ?

Envoyé par jiherve

(qui lui est forcement parallele au niveau le plus bas).

Tu es vraiment sur qu'un processeur est "forcément parallèle" au niveau le plus bas ? Là je veux bien une explication aussi parce que les contre-exemples sont nombreux.

**jiherve** · 21/11/2024, 21h19

re
c'est dans ta tête que cela n'est pas clair , moi tu le sais, je suis un hardeux (forcement limité )donc quand je parle de logiciel je parle de ce qui ce trouve dans la mémoire programme, le parallélisme que tu exploites en langage de haut niveau peut être vrai si le boulot est réparti sur plusieurs coeurs/processeurs ou apparent si c'est par time sharing, les deux ne sont pas exclusifs.
Et oui le hard c'est massivement parallele, basiquement par pipelinage, tu as bien du apprendre les bases , fetch, decode, execute, mais aussi par ce que le processeur est souvent en plus capable de répartir l’exécution de plusieurs instructions sur plusieurs ressources internes tout en maintenant la cohérence temporelle(çà ce n'est pas trivial), on n'oubliera pas non plus les caches, la gestion des mémoires etc etc tout çà fonctionne en parallele; C'est prévu pour être complétement(ou presque) transparent au programmeur final, certaines limitations étant gérées par le compilateur.
exemple : une multiplication matricielle , sur un processeur basique les multiplications additions sont réalisées sur une seule ALU les unes derrières les autres , sur un GPU ou un NPU(j'ai regardé) il y a une ressource spécifique qui effectue tout en parallele (dans les limites du hard disponible) mais il n’empêche que l'instruction ou les instructions nécessaires sont lues en séquence et que toi tu n'écriras que A*B.
Quel contre exemple as tu ?

JR

**pm42** · 21/11/2024, 22h59

Envoyé par jiherve

Et oui le hard c'est massivement parallele, basiquement par pipelinage

C'est effrayant : tu ne sais vraiment pas de quoi tu parles même sur le sujet dont tu prétends que c'est ton domaine.
Déjà, le pipelinage n'a rien à voir avec ce qu'on appelle le parallélisme, c'est juste une façon d'accélérer le code séquentiel justement. Il ne pose aucun des problèmes classiques du parallélisme : partage de données entre tâches, lock et atomicité, etc.
Tu ne semble simplement pas savoir ce que veut dire "parallèle" que tu confonds avec "recouvrement d'instructions".

Ensuite, ce n'est pas du "massivement parallèle", terme qui décrit l'utilisateur de beaucoup de processeurs ou d'ordinateurs : https://fr.wikipedia.org/wiki/Traite...ment_parallèle
Là aussi, tu sembles ne pas connaitre le sens des mots que tu emploies.

Enfin, le pipelinage est quelque chose qui est implémenté dans beaucoup de processeurs mais pas dans tous. Les 1ers notamment ne l'avaient pas : 4004, 8008, 6800, même le 6502. Et aujourd'hui encore, certains n'en ont pas notamment des microcontrolleurs.

Donc quand tu as dit, "le hardware est forcément parallèle", je n'ai effectivement pas compris puisque je savais que c'était juste une optimisation répandue mais optionnelle qui n'a rien de forcé.

Comme je connais le sujet mieux que toi, tu en as déduit le contraire : Dunning-Kruger a encore frappé.

**Bounoume** · 21/11/2024, 23h17

pour la petite histoire....
il y a longtemps, je faisais joujou en assembleur sur un MC6809.... dans les années 1980, 8 bits, une SEULE ALU, un accumulateur, quelques registres... des interruptions matérielles et logicielles....des instructions de branchement etc ben si mes souvenirs sont exacts, le code, il ne pouvait être exécuté que sur une seule ligne, séquentiellement..... Plus tard, ni le PC XT (8088) ni les PC AT n'étaient non plus multiprocesseurs, ni avec des pipeline (qui permettent seulement de trouver/exécuter + vite le résultat de plusieurs instructions voisines et + ou - indépendantes, à ce que je crois savoir...)
le cache... c'est pour pallier à la lenteur des accès RAM......
le parallélisme dont tu parles, c'est récent et uniquement pour accroître le performance (vitesse de traitement) en exécution.... .. bon, ça permettrait aussi de faire progresser en même temps plusieurs threads.... ça gagne du temps machine, mais cela n'a rien à voir avec l' IA....

Les circuits spécialisés parallèles GPU et autres, c'est très récent.... tel l'implémentation du produit matriciel. que tu cites...
Il y a 20 ans, ça n'existait pas; pourtant logiciellement le produit ligne par ligne, colonne par colonne, valeur par valeur.. ça donnait exactement le même résultat.... moins vite..... (et avec 4 boucles intriquées) alors que Mr GPU fait ça, peut-être, avec une seule instruction machine spécifique......
mais en résultat de traitement de l'information ça change quoi?

Le résultat final est le fruit d'une opération mathématique unique, qui ne dépend pas de l'ordre dans lequel sont calculés le contenu de chaque coefficient selon la ligne et la colonne où il est placé.... l'opération est logiquement parallèle, oui,
mais elle peut être parfaitement exécutée avec un hard séquentiel correctement programmé.....

là encore, discussion stérile.....

en tout cas, ça...non! 'un processeur est "forcément parallèle" au niveau le plus bas ? et non!

**pm42** · 21/11/2024, 23h23

En effet.
Ceci dit, il est dommage que le fil dérive sur le fait qu'il faille expliquer les bases du parallélisme à jiherve et à corriger ses contresens alors que ce n'est pas le sujet.
J'ai largement participé à cette dérive, je le regrette et je n'aborderais plus le sujet et ce d'autant plus que quand quelqu'un vient expliquer en étant très sur de lui et se trompe à ce point, c'est totalement inutile.

**Bounoume** · 21/11/2024, 23h56

Cela a fait suite à un article qui a pris un benchmark classique, GSM 8K (https://huggingface.co/datasets/openai/gsm8k)

Après, il y a eu un débat récemment justement sur le fait que les LLMs apprenaient en fait tout par coeur et donc n'avaient aucune capacité de raisonnement.

concernant la capacité de construire un raisonnement structuré tel une démonstration de théorème mathématique ..... où en est-on?
Sur Wiki j'ai vu qu'on parvenait déjà mal à vérifier automatiquement un théorème, (en indiquant à la machine toutes les étapes des inférences à réaliser) et très mal à découvrir automatiquement les étapes à suivre (problème NP complexe?) et pas du tout à en découvrir et démontrer automatiquement de nouveaux.....
Il me semble que ces exigences vont très au-delà du benchmark classique, GSM 8K (https://huggingface.co/datasets/openai/gsm8k)
Quels progrès à venir?
passer à l'interaction de LLM adéquats et d'un processeur en logique formelle?

Et, question peut-être naïve, si le 'langage' d'expression des axiomes, théorèmes et conjectures n'était pas ambigu à l'instar de notre langue parlée est-ce que ça serait plus facile? Si les connaissances initiales avaient été traduites dans un langage de prédicats bien choisis? Un automate conversationnel en langage constitué de prédicats non ambigus (et traductibles directement dans la langue parlée ordinaire!)

j'arrête ici mon obsession de disposer d'une machine qui sache déduire et dire les 'vérités' qu'implique un corpus initial de propositions déjà admises comme 'vraies' ontologiquement...

**pm42** · 22/11/2024, 00h06

Envoyé par Bounoume

concernant la capacité de construire un raisonnement structuré tel une démonstration de théorème mathématique ..... où en est-on?

Tout dépend : comparé à un vrai mathématicien, on est à la rue. Comparé à un élève du supérieur en maths, on est très faibles.
Comparé au reste de l'humanité, ce n'est pas si mal.

Je blague : on n'est pas forts mais aussi parce que ce n'est pas pour ça que les LLMs sont entrainés. Et c'est compréhensible : la démonstration de théorème de maths est une activité qui n'a pas vraiment un gros potentiel économique.

Mais si on entraine des IAs spécialisées en maths, c'est déjà mieux : https://www.actuia.com/actualite/alp...rie-complexes/
Parce que résoudre des problèmes niveau Olympiades, ce n'est pas donné à tout le monde.

Envoyé par Bounoume

Sur Wiki j'ai vu qu'on parvenait déjà mal à vérifier automatiquement un théorème, (en indiquant à la machine toutes les étapes des inférences à réaliser) et très mal à découvrir automatiquement les étapes à suivre (problème NP complexe?) et pas du tout à en découvrir et démontrer automatiquement de nouveaux.....

C'est plus compliqué que ça mais là aussi, disons qu'on est plutôt faibles malgré quelques réussites ponctuelles.

Envoyé par Bounoume

Il me semble que ces exigences vont très au-delà du benchmark classique, GSM 8K (https://huggingface.co/datasets/openai/gsm8k)

Oui. Mais comme déjà dit, ces exigences ne correspondent pas à des cas d'usages réels. 99% de l'activité professionnelle au moins utilise des capacités cognitives qui n'ont rien à voir avec la démonstration de théorèmes.

Envoyé par Bounoume

Quels progrès à venir?

A court terme et sauf grosse surprise, pas grand chose. Toutefois, si on arrive à faire progresser les IAs pour qu'elles raisonnent mieux que maintenant, on pourrait progresser beaucoup.
Et actuellement, c'est le sujet de beaucoup de recherches et on a pas mal avancé sur le raisonnement.

Envoyé par Bounoume

passer à l'interaction de LLM adéquats et d'un processeur en logique formelle?

Ca, on sait déjà faire mais je ne pense pas que cela améliore la capacité à démontrer.

Envoyé par Bounoume

Et, question peut-être naïve, si le 'langage' d'expression des axiomes, théorèmes et conjectures n'était pas ambigu à l'instar de notre langue parlée est-ce que ça serait plus facile? Si les connaissances initiales avaient été traduites dans un langage de prédicats bien choisis? Un automate conversationnel en langage constitué de prédicats non ambigus (et traductibles directement dans la langue parlée ordinaire!)

Là aussi, je ne pense pas que cela change grand chose : la difficulté pour démontrer, c'est de savoir dans quelle direction partir, comment revenir en arrière quand on est dans une voie sans issue, comment même détecter une voie sans issue, etc.
On ne sait pas faire ça en IA actuellement même si curieusement, on a des algorithmes qui marchent bien dans certains cas.

**polo974** · 22/11/2024, 03h44

Envoyé par Cromagnon

Plus précisément, les LLM ont autant de neurones virtuels ("informatiques", ce sont juste des données) que les êtres vivants auraient de neurones réels.

Vu que "les êtres vivants" ont entre 0 et plusieurs milliards de neurones, ça n'apporte pas grand chose comme information.

Ces deux types de neurones n'ayant ici qu'un très vague rapport du point de vue de leur fonctionnement et aucun du point de vue de leur constitution il peut paraitre étrange d'en faire la comparaison.

Les neurons sont très bien simulés, c'est plus dans leur agencement qu'il y a des différences, d'ailleurs d'une zone à l'autre d'un cerveau, il y a déjà des différences.
Votre conclusion "peut paraître étrange".

Je reviens d'ailleurs à ce sujet à ma question à laquelle personne ne semble avoir trouvé de réponse :

En fait, ça ne mérite aucune réponse. Vouloir ne pas faire la différence entre une expérience et sa simulation est quand même un peu space (pour rester très gentil).

**pm42** · 22/11/2024, 07h23

Je repensais à la demande de Bounoume sur la capacité à synthétiser, la manipulation de concepts et cette histoire de "les LLMs se contentent de prédire le prochain mot".
Outre tout ce qui a été dit, une autre raison pourquoi ce discours traduit le fait que ceux qui le tiennent se contentent de répéter une phrase lue dans la vulgarisation.

Une des erreurs de ceux qui tiennent ce discours et en "déduisent" quelque chose, c'est qu'ils ignorent que le LLMs ne manipulent pas de mots ni même des tokens (portions significatives des mots dans la langue du moment pour prendre en compte les variations orthographiques et grammaticales) mais des vecteurs.

Et que ces vecteurs qu'on appelle embeddings sont la phase en amont de l'entrainement des LLMs : on analyse tout le langage pour choisir un vecteur associé à chaque mot de façon à ce qu'il y ait non seulement une proximité dans l'espace vectoriel entre des mots ayant en gros le même sens mais aussi entre leurs relations.
C'est un exercice typique de début d'IA : on prend des embeddings et on regarde les vecteurs par exemple homme et femme. Ils sont raisonnablement proches mais pas trop.
Puis roi et reine : idem.

Mais là où cela devient intéressant, ce qu'on soustrait au vecteur "roi" le vecteur "homme", on ajoute le vecteur "femme" et on regarde dans le très grand espace qu'elle est le vecteur le plus proche du résultat. Et c'est "reine".

Au delà de cette exemple simple, cela veut dire que cette construction des embeddings capture une partie des relations sémantiques dans le langage.
Et comment construit t'on les embeddings depuis le corpus de texte qu'on utilise ?
Avec une IA, un réseau de neurones.

Ensuite, ce qu'on fait, c'est que pour capturer toutes les nuances d'un langage, on construit des vecteurs dans un espace à très grande dimension : plusieurs milliers.
Sauf qu'on a constaté que ce faisant, non seulement on capture aussi du "bruit" mais que les réseaux de neurones artificiels sont comme les humains : plus on leur donne des données compliquées durant l'apprentissage, plus celui ci est difficile.

Donc qu'est ce qu'on fait ? On essaie de transformer cet espace vectoriel immense en un de plus petite dimension qui garde le plus gros des relations conceptuelles importantes.
Pour cela on utilise des techniques mathématiques classiques (analyse en composantes principales, etc) mais aussi devinez quoi ? des réseaux de neurones.

En terme d'analogie, cela veut dire que les LLMs apprennent :
- d'abord en écoutant massivement pour essayer de faire du sens des mots employés en fonction du contexte et pour détecter des concepts et leurs relations
- puis en essayant de simplifier un peu, de dépasser les erreurs ou le bruit que cette phase d'écoute à générer
- et après seulement à parler vraiment en regardant si ce qu'elles disent est correct notamment en le comparant avec ce qu'elles ont lu

Comme toute analogie, elle a ses limites et ne sert pas de preuve mais il est intéressant de constater la proximité avec ce que font les humains quand ils apprennent une langue par immersion.

**pm42** · 22/11/2024, 07h34

Dans le même genre, on parle beaucoup des hallucinations. Elles sont intéressantes : par exemple, quand j'utilise un LLM pour écrire du code, il est très pertinent quand je lui demande quelque chose dans les langages et librairies les plus utilisées.
Il a appris depuis de nombreux exemples.

Quand je cherche sur des choses plus confidentielles où d'ailleurs on a du mal à trouver de l'info par soi même via des recherches sur le Net, il est capable de me répondre des trucs qui ont l'air vrai mais qui ne marchent pas du tout, à inventer des functions dans des librairies qui n'existent pas.
Parfois quand je lui fait remarquer, il trouve la correction mais parfois, il propose autre chose de tout aussi faux.
Il n'est pas capable de se rendre compte qu'il ne sait pas dans ces cas là.

Bref, l'outil a ses limites et comme pour tout et depuis toujours (cf. JPL), il faut les connaitre, les détecter et faire avec plutôt que d'expliquer qu'il suffit de le jeter à la poubelle parce qu'on ne sait pas s'en servir.

Mais ce qui est intéressant, c'est que ce mécanisme est exactement celui qui a été à l'oeuvre dans ce fil : on a eu beaucoup d'affirmations de gens qui n'ont clairement pas eu assez d'informations pour apprendre de façon pertinente, ne sont pas capables de se rendre compte qu'ils ne savent pas et qui à chaque objection se contentent de ressortir un truc faux plus ou moins le même.

Bref, il existe une fonction cognitive, clairement apprise et pas innée, qui permet à certains d'entre nous et pas forcément toujours ni dans tous les contextes de valider que le discours que nous tenons a du sens, à en gros "réfléchir avant de parler" et à "faire l'effort d'apprendre puis de comprendre".

Cette fonction cognitive n'existe pas encore chez nos IAs. Mais clairement, elle n'est pas la plus répandue non plus chez les humains (cf. le forum ou n'importe quel journal d'information qui montre qu'on peut avoir beaucoup de succès socialement en racontant absolument n'importe quoi en boucle, en en convaincant ses concitoyens qui vont ensuite le répéter eux même, etc).

invite40271050 · 22/11/2024, 09h18

En somme c'est " réfléchir"..avant de... !
Y a de tout chez les humains !!
Bonne cogitation pour le reste ( c'est pas pour moi )

**jiherve** · 22/11/2024, 11h49

Bonjour
@ PM42 je crains que tu ne te fourvoies encore une fois (serait ce de la haine ?) j'ai conçu et programmé des machines parallèles utilisant des transputer alors que tu n’étais même pas encore étanche , donc Je te laisse pérorer.

Par ailleurs je vois que d'autre ne connaissent rien non plus en architecture de processeur , je leur conseille donc de se plonger dans les data sheet.
JR

**Cromagnon** · 22/11/2024, 13h14

Envoyé par polo974

De ce que j'ai lu (mais ça bouge si vite...), les plus grosses IA LLM ont environ autant de neurones qu'un chien (soit 2 fois plus qu'un chat), mais ils sont tous utilisés pour "pondre du texte", ce qui n'est pas l'activité principale d'un chien.
Et l'autre jour chatgpt a expliqué très "professionnellement" la fonction d'une une commade sed bien sentie (un affreux truc d'informatien) à un collègue. Personne au boulot n'aurait fait mieux (en fait, personne à part moi n'aurait pu donner un début d'explication).

Envoyé par Cromagnon

Plus précisément, les LLM ont autant de neurones virtuels ("informatiques", ce sont juste des données) que les êtres vivants auraient de neurones réels.

Envoyé par polo974

Vu que "les êtres vivants" ont entre 0 et plusieurs milliards de neurones, ça n'apporte pas grand chose comme information.

Dans ce cas pourquoi l'avez-vous fait remarquer ???

Envoyé par polo974

Les neurons sont très bien simulés, c'est plus dans leur agencement qu'il y a des différences, d'ailleurs d'une zone à l'autre d'un cerveau, il y a déjà des différences.
Votre conclusion "peut paraître étrange".

Je pense que vous êtes loin du compte.
Déjà, un peu de vulgarisation rapide pour avoir les idées un peu plus claires.
Neurone biologique VS Neurone artificiel (10 mn) : https://www.youtube.com/watch?v=ZFMid7h68hc

Donc juste pour citer quelques différences significatives mais je ne vais pas trop m'appesantir :
* Aucun cerveau réel n'a jamais fait appel à la rétro-propagation d'un gradient d'erreur pour appendre.
* Le réseau neuronal artificiel des LLM ne sont que des "perceptrons", c'est à dire qu'ils se rapprochent, et uniquement fonctionnellement, des zones de la perception cérébrale biologique.
La perception n'est qu'une des multiples activités fonctionnelles cérébrales qu'on peut trouver dans un cerveau biologique, et celle-ci n'est pas celle qui nous sert, à nous, êtres biologiques, pour penser.
Il s'agit là dans la problématique qui nous importe (la conscience des LLM) d'un point important à noter si on veut trancher sur la possibilité que ces structures "perceptuelles" puissent acquérir de la conscience.
Dans un réseau informatique, on a 1 signal qui est transformé puis qui active dans la couche 1 pour finir en couche n où elle est externalisée, c'est unidirectionnel... puisque c'est ce qui se rapproche le plus du fonctionnement ds zones perceptuelles biologiques (je dis bien "se rapproche").

Pour ne rester que dans la perception.
Dans la réalité biologique, par exemple pour une image, on n'a pas 1 signal représentant l'image qui arrive en une fois comme pour un cerveau informatique, mais des éléments d'un signal (comme des pixels mais évidement comme ça bouge et vu la finesse du truc ce n'est jamais le même neurone qu reçoit le même pixel....) qui arrivent dans une zone de perception (avec des petits décalages, spatial et temporel donc), et chaque petite parcelle du signal est envoyée, puis l'envoi s’arrête, puis est renvoyé, puis l'envoi s’arrête,.... etc, tant que le signal en entrée, l'image, persiste.
C'est dynamique et la mise en rapport du signal en entrée avec le réseau qui est structuré dans les 3 dimensions donne lieu à un équilibre (alors que dans une simulation informatique c'est statique) qui produit ce qu'on est appelé à nommer des "ONDES CEREBRALES" (des zones spatiales dans lesquelles l'activation neuronale se propage).
La question des ondes cérébrales est le point clé, du moins c'est là mon avis, qui différencie fondamentalement lorsqu'il est question de la conscience, le réseau biologique de sa pâle copie fonctionnelle.
Ce point est également à noter (le fait qu'un cerveau biologique donne lieu à des EEG alors qu'une LLM n'en produit pas) si on doit se poser la question de savoir si le LLM peut être amené à produire de la conscience, car dans certaines théories des neurosciences les ondes cérébrales, nécessaires à toute activité cérébrale biologique sont également la clé permettant l'émergence de la conscience.
https://www.cea.fr/multimedia/docume...conscience.pdf

A noter donc que dans un réseau biologique, qu'il soit dédié à la perception ou à la pensée (et plus particulièrement dans ce dernier cas de figure), la communication entre neurones ne se fait pas entre couches dans un sens, mais entre neurones formant globalement des groupes, communicants dans toutes les directions.
Le cerveau biologique n'attend pas un signal en entrée pour produire des signaux car même sans signaux il y a des activations et inhibitions entre groupes de neurones... et c'est là la différence la plus fondamentale à mon sens.

On peut résumer la chose en disant qu'un réseau LLM est "mort", car son EEG est plat.

Envoyé par polo974

En fait, ça ne mérite aucune réponse. Vouloir ne pas faire la différence entre une expérience et sa simulation est quand même un peu space (pour rester très gentil).

Je ne suis pas sûr que vous ayez compris mon raisonnement puisque je ne comprends pas votre remarque (peut-être trop sibylline).

**pm42** · 22/11/2024, 13h29

Envoyé par Cromagnon

On peut résumer la chose en disant qu'un réseau LLM est "mort", car son EEG est plat.

Gigantesque blabla pour dire "puisque le sous-jacent n'est pas exactement le même, il est évident que cela ne peut pas faire la même chose".

C'est très exactement l'équivalent de dire "puisqu'ils ne battent pas des ailes et qu'ils ont besoin d'un moteur contrairement aux oiseaux, on en déduit que les avions ne volent pas vraiment".

Bref, on est dans le classique et répétitif mythification de la conscience, de l'intelligence qui consiste à dire que tant que cela ne tourne pas dans le cerveau d'un humain, cela ne peut pas être prétendre à la même qualification.
C'est une définition circulaire à partir du seul exemple connu et c'est d'ailleurs pour cela que chaque fois qu'on demande une définition précise et opératoire de "intelligence" ou "conscience", on a un grand silence, des références à la philo ou comme ici une confusion entre concept général et cas particulier.

**Cromagnon** · 22/11/2024, 13h33

Envoyé par pm42

C'est très exactement l'équivalent de dire "puisqu'ils ne battent pas des ailes et qu'ils ont besoin d'un moteur contrairement aux oiseaux, on en déduit que les avions ne volent pas vraiment".

Non c'est équivalent de dire que ce n'est pas parce-ce que les avions volent fonctionnellement comme des oiseaux qu'ils vont pondre des œufs, sachant qu'on a des arguments scientifiques qui vont dans ce sens.
Mais libre à vous d'y croire.

**pm42** · 22/11/2024, 13h48

Envoyé par Cromagnon

Non c'est équivalent de dire que ce n'est pas parce-ce que les avions volent fonctionnellement comme des oiseaux qu'ils vont pondre des œufs, sachant qu'on a des arguments scientifiques qui vont dans ce sens.

Pas du tout puisque le fait de pondre des oeufs n'a strictement rien à voir avec le vol alors que dans le cas des IAs, on parle de structures construites précisément pour reproduire fonctionnellement une partie au moins de ce que fait le cerveau exactement comme dans la comparaison oiseau/avion.

Votre objection n'est absolument pas pertinente.

Envoyé par Cromagnon

Mais libre à vous d'y croire.

Ca, c'est la remarque "je n'ai jamais défini ce dont je parle, la conscience, je n'ai aucun test pour la détecter ailleurs que chez les humains fonctionnels, je ne connais rien de rien à l'IA donc je vais juste afficher ma supériorité imaginaire parce que répondre aux objections est trop compliqué".

Et pour généraliser ce que j'ai dit plus haut, je vais aussi arrêter de répondre aux énormités diverses des gens qui ne comprennent même pas dès qu'on parle de quelque chose qui relève des 1ères heures de cours sur l'IA mais ont un "avis".

Si quelqu'un veut échanger sur l'IA en espérant apprendre quelque chose plutôt que de nous convaincre de la supériorité intrinsèque et éternelle des humains, ce sera avec plaisir.

**Cromagnon** · 22/11/2024, 14h18

Envoyé par pm42

Pas du tout puisque le fait de pondre des oeufs n'a strictement rien à voir avec le vol alors que dans le cas des IAs, on parle de structures construites précisément pour reproduire fonctionnellement une partie au moins de ce que fait le cerveau exactement comme dans la comparaison oiseau/avion.

Ah oui d'accord.
Donc vous pensez que :
Comme les IA sont des structures construites précisément pour reproduire fonctionnellement une partie au moins de ce que fait le cerveau, ça doit avoir toutes les propriétés d'un cerveau humain => Ça fait émerger la conscience.

Mais vous rendez-vous compte que :
C'est l'équivalent de dire que comme les avions sont des structures construites précisément pour reproduire fonctionnellement une partie au moins de ce que fait l'oiseau, ça doit avoir toutes les propriétés d'un oiseau => Ça pond des œufs.

Donc vous dites que dans un cas, celui du LLM : (1) Puisque c'est fait pour "être intelligent" comme un humain, ça doit produire de "la conscience".
Et de l'autre vous dites, dans le cas du vol : (2) Puisque c'est fait pour "voler" comme un oiseau, ce n'est pas pour ça que ça doit produire "des œufs".

Je vous la fais courte :
(1) est faux.
(2) est vrai.

Vous confondez l'intelligence et la conscience et de ce fait il vous parait cohérent d'obtenir quelque-chose qui semble en rapport avec l'intelligence (du moins dans votre tête) avec une machine qui fait preuve d'intelligence.
Mais pour quelqu'un qui comprend bien la différence entre l'intelligence et la conscience, cette confusion est aussi absurde que d'associer le fait de voler et de pondre des œufs.
C'est juste que vous ne vous en rendez pas compte.

**JPL** · 22/11/2024, 18h25

Je sens que cette discussion court un grand risque d’être fermée rapidement pour cause d’incompétences, de hargne et de dérives.

**Cromagnon** · 22/11/2024, 19h01

Pour ceux que ça intéresse, voici une étude scientifique qui rappelle le lien entre EEG et certains états mentaux, dont la conscience.

Modifications de l'activité bioélectrique du cerveau dans la cognition, la conscience et certains troubles mentaux

Abstrait

Contexte : L'électroencéphalogramme (EEG) est une méthode reconnue en neurophysiologie et largement utilisée. Différents types de rythmes cérébraux indiquent que l'activité simultanée des neurones du cortex cérébral dépend de l'état mental de la personne.

Méthode : nous nous sommes concentrés sur l'examen de la littérature existante concernant les changements de l'activité bioélectrique du cerveau enregistrés à partir du cuir chevelu dans différentes conditions telles que la cognition et certains troubles mentaux.

Résultat : La fréquence des ondes cérébrales peut indiquer le sommeil, la conscience, la cognition et certains troubles mentaux. Des ondes cérébrales lentes sont observées dans certaines pathologies telles que le sommeil, le coma, la mort cérébrale, la dépression, l'autisme, les tumeurs cérébrales, le trouble obsessionnel-compulsif (TOC), le trouble déficitaire de l'attention avec hyperactivité (TDAH) et l'encéphalite, tandis que des ondes rapides sont généralement signalées dans des pathologies telles que l'épilepsie, l'anxiété, le trouble de stress post-traumatique (TSPT) et la toxicomanie.

Conclusion : L'augmentation du rythme EEG est un marqueur d'activité cérébrale élevée qui conduit à des degrés élevés de conscience, tandis que les ondes lentes suggèrent une activité cérébrale moindre. Le modèle du rythme EEG peut également être un indicateur de certains troubles mentaux.

https://pmc-ncbi-nlm-nih-gov.transla...r&_x_tr_pto=rq

**polo974** · 22/11/2024, 19h17

Envoyé par Cromagnon

Dans ce cas pourquoi l'avez-vous fait remarquer ???

Ben parce que ce que vous balancez au km ne vaut pas grand chose. Dont sur ce coup, une non info sur le nombre de neurones d'un être vivant.

Le reste est à l'avenant. Mauvaise foi, et compagnie, réduction d'une technologie à son ancêtre, etc.

Ah, oui, s'étonner qu'une simulation ne produise pas la même chose qu'une expérience réelle. Heureusement pour nous, que ce ne soit pas pareil, car les militaires simulent des explosions nucléaires. Ça ferait désordre si ça pétait comme en vrai.

Si on veut faire des Ix strictement identiques à des IH, avec en prime les rages de dent (cf la connerie sur le fait qu'un avion ne pond pas des oeufs), il suffit de trouver des volontaires pour jouer à papa/maman, il y en a plusieurs milliards sur terre.

Ceci était un exercice de mise à niveau...

**Cromagnon** · 22/11/2024, 19h39

Ah, oui, s'étonner qu'une simulation ne produise pas la même chose qu'une expérience réelle. Heureusement pour nous, que ce ne soit pas pareil, car les militaires simulent des explosions nucléaires. Ça ferait désordre si ça pétait comme en vrai.

Donc vous êtes bien d'accord sur ce point, c'est bien.

Mais alors, et apparemment vous n'avez donc pas compris ma remarque, ou vous avez une conception des choses qui diffère de la mienne, pourquoi pouvez vous imaginer ne serait-ce qu'un instant que la simulation d'un réseau neuronal biologique puisse produire une conscience ?
Lorsque vous faites une LLM, vous pouvez appeler la chose comme vous le voulez, une IA etc, mais ne s'agit-il pas en définitif d'une simulation ?
Au même titre que celles auxquelles vous déniez (fort heureusement, et m'en voici rassuré) la possibilité de prendre forme dans ce monde.

Qu'en dites-vous ?

**JPL** · 22/11/2024, 19h42

Discussion fermée.

La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Re : La conscience des LLMs

Discussions similaires

La conscience

La conscience

[Biologie Moléculaire] Conscience

la conscience