Agents conversationnels: comparaison n'est pas raison ?

**Liet Kynes** · 15/07/2023, 09h40

Bard est lancé en Europe et les articles vont fuser pour le comparer à Bing-conversation ou chatGPT.

Le but du jeu proposé ici est de trouver ce qui est pertinent à comparer et surtout de chercher une méthode d'évaluation.
Le côté pertinent implique de laisser de côté ce que l'on sais déjà comme n'étant pas fiable pour un agent conversationnel.
La difficulté réside à mon avis dans le caractère qualitatif de ce qui va être évalué.

Capacité à résumer un texte, à formuler ou reformuler une idée etc..

J'ai cherché des outils sur le web dans ce sens mais j'ai pas trouvé grand-chose pour l'instant, peut-être regarder comment font les profs de français pour évaluer ?

**jiherve** · 15/07/2023, 09h57

bonjour
comme dans l'absolu il est impossible d’évaluer quoique ce soit pour ces engins, comment alors pouvoir les comparer.
Ce qu'ils produise est probabiliste il n'y a aucune explication fournie avec la réponse comme pouvaient le faire les IA symboliques.
C'est pour çà qu'aucune IA de cet type ne pourra être certifiée en aéro, sauf si bien sur les règles de certification changent.
JR

**pm42** · 15/07/2023, 10h00

Ce sont deux outils qui n'ont pas été conçus avec les mêmes objectifs en effet.
Pour ce qui est de l'évaluation des LLM, c'est un vaste sujet et pas simple à cause notamment de la variété des usages.

Un peu de lecture : https://research.aimultiple.com/larg...el-evaluation/

P.S : je doute que regarder ce que font les profs de français soit pertinent malgré tout le respect que je leur dois. Le cadre dans lequel ils travaillent est beaucoup normé et borné.
Et les LLMs sont en général multi-langues ce qui amène d'autres sujets : https://towardsdatascience.com/world...i-340df6241fbf qui pourrait par exemple poser des problèmes à un prof d'histoire en Corée.

P.P.S : au delà de la performance de chaque modèle qui reste fondamentale, il y a aussi tout ce qui est en train d'être construit en terme d'écosystème, d'intégration avec les outils de la communauté (langchain, llama-index, etc) et de coût.
Je n'ai pas encore regarder comment Bard se comporte de ce point de vue mais pour le moment, je ne l'ai pas non plus vu cité dans les articles.

Par exemple, quelque chose de récent qui élargi énormément le spectre d'utilisation de ChatGPT, c'est l'interpréteur de code qui vient d'être intégré. On avait évoqué cette possibilité au début notamment quand certains s'obstinaient à faire exécuter des algorithmes à un modèle du langage. Elle est arrivée au moins partiellement. A terme, que les LLM sachent reconnaitre des instructions et passer la main directement à l'écriture puis l'exécution du code est plus que probable.

https://towardsdatascience.com/chatg...k-3c65a8dfa935

**Liet Kynes** · 15/07/2023, 10h32

C'est en effet compliqué, l'article est très intéressant, la partie évaluation humaine serait davantage l'objet de ce fil.

Décider ce qui peut être évalué, de quelle manière est déjà pas simple mais aussi c'est déterminer le test à faire passer qui pose un problème.

Exemple résumé de texte:

Résumez ce texte en 10 mots : " Un vol audacieux a été commis en Suisse. Des oeuvres de Picasso exposées temporairement au public en ont fait les frais. Il s'agit plus exactement de toiles qui sont au nombre de sept. Les voleurs se sont introduits dans une galerie de Zurich durant le dernier week-end, après la fermeture du samedi après-midi. Nous ne connaissons pas encore l'identité du propriétaire. On peut toutefois estimer le préjudice entre 50 et 200 millions de francs suisses. Les tableaux volés appartiennent aux périodes "bleue" et "rose" du grand peintre. Figure parmi eux "Le Christ de Montmartre" (1904). Notons que deux des toiles ont déjà été dérobées en 1991 avant d'être retrouvées l'année suivante."

ChatGPT:

Vol audacieux en Suisse : 7 toiles de Picasso dérobées à Zurich, préjudice estimé entre 50 et 200 millions de francs. Certains tableaux avaient déjà été volés en 1991.

Bard:

Bien sûr, voici le résumé du texte en 10 mots :Sept tableaux de Picasso volés en Suisse, valeur estimée à 50-200 millions CHF

Bing mode créatif:

Voici un résumé possible en 10 mots :

Sept Picasso volés à Zurich, préjudice de 200 millions.

On peux classer la perf: 1 Bing, 2 Bard, 3 chatGPT mais il faudrait répéter l'opération plusieurs fois avec des textes intégrant des sémantiques très différentes (langage technique, développement logiques etc..)

à la réflexion c'est pas simple du tout et je pense que les articles de presse vont surtout être le reflet d'individus qui pensent savoir de quoi ils parlent mais qui n'auront pas de méthode

A voir en vidéo sur Futura · Aujourd'hui

**jiherve** · 15/07/2023, 10h40

re
quel intérêt y a t il a faire une comparaison ?
Autant il est pertinent de comparer la précision de calcul de deux machine car c'est quantifiable autant il me semble futile d’évaluer ces bécanes, car il n'existe aucun critère d’évaluation fiable, amha cela se rapprochera très vite de l'idiophilie.
Il est plus urgent de faire des recherches pour pouvoir expliciter leur "raisonnement"
JR

**Liet Kynes** · 15/07/2023, 11h06

Envoyé par jiherve

re
quel intérêt y a t il a faire une comparaison ?
Autant il est pertinent de comparer la précision de calcul de deux machine car c'est quantifiable autant il me semble futile d’évaluer ces bécanes, car il n'existe aucun critère d’évaluation fiable, amha cela se rapprochera très vite de l'idiophilie.
Il est plus urgent de faire des recherches pour pouvoir expliciter leur "raisonnement"
JR

Ces agents ont une utilité pratique en termes de rédaction, ou de traitement de l'info dans un usage courant. Mais oui je pense aussi que dans la semaine qui vient on va voir fleurir pas mal de conneries dans la presse.

-> du coup exercice clos car pas réalisable, je ne sais pas si cela vaut le coup de poursuivre en discussion scientifique, il n'y a pas grand chose à ajouter.

Agents conversationnels: comparaison n'est pas raison ?

Agents conversationnels: comparaison n'est pas raison ?

Re : Agents conversationnels: comparaison n'est pas raison ?

Re : Agents conversationnels: comparaison n'est pas raison ?

Re : Agents conversationnels: comparaison n'est pas raison ?

Re : Agents conversationnels: comparaison n'est pas raison ?

Re : Agents conversationnels: comparaison n'est pas raison ?

Discussions similaires

Fréquence d'utilisation des agents conversationnels

[Stats] Quel test sous spss pr comparaison 2 moyennes avec n=9 ; etquestion sur comparaison multiple

[Biochimie] Agents intercalants et ADN

Agents complexants

Agents reducteurs