Evolution du comportement de (chat)GPT ?

**yves95210** · 20/07/2023, 09h09

Salut,

Je viens de tomber sur un papier dans lequel les auteurs évaluent l'évolution des performances (ou du comportement) de GPT3.5 et 4 dans le temps :
How Is ChatGPT’s Behavior Changing over Time?. En voici l'abstract :

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on four diverse tasks: 1) solving math problems, 2) answering sensitive/dangerous questions, 3) generating code and 4) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was very good at identifying prime numbers (accuracy 97.6%) but GPT-4 (June 2023) was very poor on these same questions (accuracy 2.4%). Interestingly GPT-3.5 (June 2023) was much better than GPT-3.5 (March 2023) in this task. GPT-4 was less willing to answer sensitive questions in June than in March, and both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. Overall, our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality.

Question aux utilisateurs réguliers de GPT : est-ce que ça correspond à votre expérience ?

Question aux experts de l'IA : qu'est-ce qui pourrait expliquer ce phénomène ?
(à part une politique de modération, dans le cas particulier des "sensitive questions")

**yves95210** · 20/07/2023, 09h26

Envoyé par yves95210

Question aux experts de l'IA : qu'est-ce qui pourrait expliquer ce phénomène ?
(à part une politique de modération, dans le cas particulier des "sensitive questions")

PS : j'aurais dû chercher avant de poster le premier message, mais j'ai trouvé depuis cette (tentative de) réponse à la question ci-dessus :

Many of us practitioners have felt that GPT-4 degrades over time. It's now corroborated by a recent study. But why does GPT-4 degrade, and what can we learn from it?

Here're my thoughts:

▸ Safety vs helpfulness tradeoff: the paper shows that GPT-4 Jun version is "safer" than Mar version, as it's much more likely to refuse sensitive questions (answer rate drops from 21% -> 5%).

Unfortunately, more safety typically comes at the cost of less usefulness, leading to a possible degrade in cognitive skills. My guess (no evidence, just speculation) is that OpenAI spent the majority of efforts doing lobotomy from Mar to Jun, and didn't have time to fully recover the other capabilities that matter.

▸ Safety alignment makes coding unnecessarily verbose: the paper shows that GPT-4-Jun tends to mix in useless text even though the prompt explicitly says "Generate the code only without any other text". This means practitioners now need to manually post-process the output to be executable - a big annoyance in an LLM software stack.

I believe this is a side effect of safety alignment. We've all seen GPTs add warnings, disclaimers (I'm not a <domain> expert, so please consult ...), and back-pedaling (that being said, it's important to be respectful ...), usually to an otherwise very straightforward answer. If the whole brain is tuned to behave like this, coding would suffer as well.

▸ Cost cutting: no one knows for sure if GPT-4-Jun is the exact same mixture-of-expert configuration as GPT-4-Mar. It's possible that (1) parameter count drops, (2) number of experts is reduced, and/or (3) simpler queries are routed to smaller experts, and only complex ones maintain the original computation cost.

▸ Continuous integration will be a crucial LLM R&D topic: the AI world is barely catching up on things that the general software world takes for granted. Even this study paper doesn't do a comprehensive regression testing on benchmarks like MMLU, Math, and HumanEval. It only studies a particular prime number detection problem.

Does GPT-4 regress on trigonometry? What about other reasoning tasks? What about quality of code in different programming languages, and the ability of self-debugging?

**pm42** · 20/07/2023, 09h36

Envoyé par yves95210

Question aux utilisateurs réguliers de GPT : est-ce que ça correspond à votre expérience ?

Pas spécialement mais je n'ai pas non plus chercher à l'évaluer et certainement pas sur des critères comme ça qui sont peu significatifs du gros des usages (voir un peu ridicule comme l'évaluation de la primalité).

Envoyé par yves95210

Question aux experts de l'IA : qu'est-ce qui pourrait expliquer ce phénomène ?

Les modèles sont mis à jour environ tous les 3 mois. Quelle est l'ampleur du réentrainement n'est pas connu (que je sache).
Il est également possible que l'IA de modération soit également remise à jour régulièrement.

Quand on réentrainte une IA, on n'obtient pas forcément les mêmes résultats parce qu'il y a une part de génération de nombres aléatoires. On peut vouloir l'éviter ou pas.
Mais même si on réentraine en fixant cette part d'aléatoire mais qu'on fait varier quelque chose, le jeu de données, des paramètres, on va obtenir quelque chose de différent et qui ne sera pas forcément meilleur en tout.
Parfois, on peut même dégrader la performance globale : entrainer une IA est en effet heuristique et on cherche le point au delà duquel on ne fait pas mieux.

Comme on ne sait pas quelle est la métrique d'OpenAI, il est difficile de dire ce qui se passe mais d'autres constatent des progrès.
Citation d'un article du Monde :

Voici à peine trois mois, lorsque l’on te demandait : « Qu’est-ce qui coûte le plus cher : les yeux de la tête ou la peau du cul ? », tu répondais : « Il est difficile de comparer le coût des yeux de la tête et de la peau du cul, car il s’agit de contextes médicaux différents. Les yeux sont des organes importants pour la vision, alors que la peau du cul est une zone corporelle qui peut être concernée par des affections comme l’eczéma ou la dermatite. Les coûts pour traiter ces conditions peuvent varier considérablement en fonction de la gravité de la condition », etc. Aujourd’hui, tu sais que « ces expressions sont des expressions idiomatiques utilisées pour exprimer le coût élevé de quelque chose de manière humoristique ou exagérée. Elles ne doivent pas être prises littéralement ».

https://www.lemonde.fr/series-d-ete/...9_3451060.html

Quand à GPT-4, c'est encore autre chose parce qu'il est un outil de recherche et on ne sait pas grand chose sur son architecture. Il semble qu'il soit construit par l'aggrégration de 8 IAs, une idée pas récente mais parfois très efficace (j'en utilise une variante au boulot)
https://the-decoder.com/gpt-4-archit...%20Transformer.

Donc là, les évolutions peuvent être encore plus pointues.

P.S : globalement, tout cela relève du problème bien connu de la boite noire que sont les IAs. C'est un sujet pour certains usages, pas pour d'autres et il faut l'intégrer dans la maitrise de l'outil. On peut également noter que les experts humains sont également des boites noires au sens ou bien sur, ils peuvent tenir un discours sur "comment ils sont arrivé à tel résultat" mais celui ci n'est pas si fréquent (30% des humains y arrivent correctement, on a découvert ça quand on faisait des systèmes experts) et souvent ad-hoc (du genre "et voilà pourquoi votre fille est muette").

**pm42** · 20/07/2023, 13h59

Pour en revenir aux métriques pour évaluer un LLM et donc savoir "est ce que la nouvelle version est mieux que l'ancienne" avant de la mettre en prod, j'avais donné un lien ici : https://forums.futura-sciences.com/s...ml#post7111886

Donc comme dit plus haut, il est parfaitement logique que les évolutions de ChatGPT soient meilleures pour ce genre de métrique composite mais pas pour des tests naïfs.

A voir en vidéo sur Futura · Aujourd'hui

**Liet Kynes** · 20/07/2023, 18h29

Envoyé par pm42

Pour en revenir aux métriques pour évaluer un LLM et donc savoir "est ce que la nouvelle version est mieux que l'ancienne" avant de la mettre en prod, j'avais donné un lien ici : https://forums.futura-sciences.com/s...ml#post7111886

Donc comme dit plus haut, il est parfaitement logique que les évolutions de ChatGPT soient meilleures pour ce genre de métrique composite mais pas pour des tests naïfs.

J'ai lu les articles en question et les difficultés d'évaluation et je me suis dit que l'IA est conversationnelle a comme un "esprit" polymorphe et tenté de contrôler ce polymorphisme, c'est un peu chercher à contrôler le plasma dans un tomahawk.
Par contre les ad'ons comme celui que j'ai décrit dans le post en sciences ludiques avec les Markdown me semble des évolutions : l'IA conversationnelle couplée à des logiciels OCR ou d'autres IA va pouvoir s'enrichir et reformuler par elle-même les prompts qu'elle reçoit ?

**pm42** · 20/07/2023, 19h08

Je ne suis pas sûr de comprendre la question mais le couplage IA/ autres logiciels ou autres IA ou la gestion des interactions via réécriture ou complément des questions est un axe de recherche/développement actuel.

Que ça corresponde à ce que tu imagines est plus difficile à dire notamment parce que je ne vois pas ce que l'OCR vient faire ici.

**Liet Kynes** · 20/07/2023, 19h14

Envoyé par pm42

je ne vois pas ce que l'OCR vient faire ici.

Je pensai au format image que génère wolfram voir à la possibilité d'obtenir des copies d'écrans.

Evolution du comportement de (chat)GPT ?

Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Re : Evolution du comportement de (chat)GPT ?

Discussions similaires

évolution du comportement en état d'ébiété

Comportement de chat