Scalabilité et IA conversationelles

**Liet Kynes** · 03/05/2023, 19h10

Bonjour,

en partant de ce que je comprends jusqu'à présent dans le fonctionnement des IA conversationnelles actuelles, je me suis posé la question de savoir s'il est possible de les utiliser pour réduire la taille des supports de mémoires nécessaires au stockage de texte (et d'images dans l'avenir) en développant un apprentissage de restitution "sans perte" ou avec perte mais moindre que ce que l'on a actuellement.

Mon interrogation s'est inspirée de la lecture de cet article : https://engineering.fb.com/2017/06/1...-to-negotiate/
Un peu sur l'actualité "Shogtongue" https://github.com/Significant-Gravi...scussions/1895 qui me semble peu crédible actuellement.
Et quelques expérimentations personnels : retrait des espaces dans un texte par exemple.

L'idée est ensuite de calculer des rendements sur des paramètres : cout du stockage en énergie et matières premières, coût de l'injection/extraction des données dans la même optique liées aux durées envisagées du stockage et à l'estimation de la pertinence du stockage..

**GBo** · 03/05/2023, 20h33

Envoyé par Liet Kynes

Bonjour,
Et quelques expérimentations personnels : retrait des espaces dans un texte par exemple.

Heuuuu... tu as entendu parler de gzip et autres logiciels de compression ou bien tu pars de zéro dans cette aventure ?
https://en.wikipedia.org/wiki/Gzip
https://en.wikipedia.org/wiki/Deflate

**jiherve** · 03/05/2023, 20h35

bonsoir
Il existe moult algorithmes de compression sans pertes , le fonctionnement d'une IA en est très éloigné car ce n'est pas son but.
JR

**Liet Kynes** · 03/05/2023, 21h51

Il y a une application potentielle, si l'IA peut transformer dans son "langage" un texte en réduisant le nombre de caractères et le restituer ensuite : voir les liens donnés. Les algorithmes classiques permettant ensuite de compresser un texte comprenant moins de caractères. L'exemple de la suppression des espaces d'un texte qui est restitué ensuite correctement par l'IA est donné dans ce sens.

A voir en vidéo sur Futura · Aujourd'hui

**GBo** · 03/05/2023, 23h07

Tu as présenté le sujet comme suit:

je me suis posé la question de savoir s'il est possible [d']utiliser [des IA conversationnelles actuelles] pour réduire la taille des supports de mémoires nécessaires au stockage de texte (et d'images dans l'avenir) en développant un apprentissage de restitution "sans perte" ou avec perte mais moindre que ce que l'on a actuellement.

On t'a répondu qu'il y avait des algos dédiés à la compression de texte et d'images bien connus et efficaces. Forcément meilleurs que des IA conversationnelles dont ce n'est pas le but. Ca n'a pas l'air de te satisfaire. Quel est le donc pb que tu cherches à résoudre exactement, peux-tu le formuler clairement ?

**Bounoume** · 03/05/2023, 23h08

pour info, en latin très ancien les espaces sont inconnus..... mais ils peuvent être rajoutés dès lors que le texte est uniquement constitué de mots conformes au dictionnaire.... pas besoin d'IA !
Un (presque....

) quelconque programme déterministe peut le faire.....

Dans ta demande de restitution, tu acceptes quel taux d'erreur? Sur le mot? sur la suite de mots? ou bien sur le sens global? sur certains sujets plutôt que d'autres?
Alors que gzip et consorts sont vendus pour n'engendrer aucune erreur de restitution....
Et aussi quelles contraintes acceptes-tu sur.... les règles que devraient respecter les textes à archiver pour que l'IA 'devine' l'information délibérément non enregistrée?

**Liet Kynes** · 04/05/2023, 06h31

Envoyé par GBo

Tu as présenté le sujet comme suit:

On t'a répondu qu'il y avait des algos dédiés à la compression de texte et d'images bien connus et efficaces. Forcément meilleurs que des IA conversationnelles dont ce n'est pas le but. Ca n'a pas l'air de te satisfaire. Quel est le donc pb que tu cherches à résoudre exactement, peux-tu le formuler clairement ?

L'idée de fond est de savoir s'il est envisageable d'entrainer des IA à transcrire un langage naturel dans un langage qui utiliserait moins de caractères, le texte transcrit pouvant ensuite être compressé avec un algorithme.

**GBo** · 04/05/2023, 08h04

Envoyé par Liet Kynes

L'idée de fond est de savoir s'il est envisageable d'entrainer des IA à transcrire un langage naturel dans un langage qui utiliserait moins de caractères

La presse s'est faite écho des expériences d'un certain Jeremy Nguyen (tu dois être au courant puisque ton 2ieme lien en parle):

"ChatGPT made its own 'Shogtongue' language to blow past the word limit"
https://www.tomsguide.com/news/chatg...the-word-limit

Envoyé par Liet Kynes

, le texte transcrit pouvant ensuite être compressé avec un algorithme.

...ce qui le rendra incompréhensible par l'IA, donc aucun intérêt en pratique puisque le 'Shogtongue' ne sert qu'à contourner les limites de mémorisation de GPT-4.

**JPL** · 04/05/2023, 15h45

Envoyé par Liet Kynes

L'idée de fond est de savoir s'il est envisageable d'entrainer des IA à transcrire un langage naturel dans un langage qui utiliserait moins de caractères, le texte transcrit pouvant ensuite être compressé avec un algorithme.

Tu t’obstines à vouloir utiliser un char d’assaut là où il faut une pince à épiler. Les algorithmes de compression des fichiers sont des programmes légers dont l’efficacité est redoutable. Personnellement j’utilise 7Zip qui est gratuit et sait compresser et décompresser des fichiers en utilisant les divers algorithmes actuellement utilisés.

**Liet Kynes** · 04/05/2023, 18h22

Je n'ai pas besoin de cela, je pose la question dans le cadre du coût du stockage des données.
Un exemple:

Message envoyé. Que veux dire cette phrase: "si jécri en fesan plein de fote es ce ke tu peu coprendre ?"

Générer des réponses pour vous…

Bonjour, c’est Bing. Cette phrase veut dire: “si j’écris en faisant plein de fautes est-ce que tu peux comprendre ?” 1. C’est une façon d’écrire très incorrecte et familière qui ne respecte pas les règles d’orthographe et de grammaire du français. Par exemple, il faut toujours mettre un trait d’union entre le verbe “est” et “ce” dans la forme interrogative “est-ce que” 12. Il faut aussi accorder le participe passé “faisant” avec le sujet “j’” et écrire “peux” avec un “x” à la fin 3.

La phrase proposée est traduite correctement, c'est cette propriété que je trouve exploitable avec le fait qu'une IA conversationnelle pourrait transformé le texte de façon à le réduire en terme de nombre de caractères et ensuite la compression classique permet donc de stocker avec moins de place.

autre exemple:

Message envoyé. que veux dire "Ttobstin a voulwar utiliZ 1 char dasso la ou i fo 1 pins a épilé. Lalgo de compreSion d fichié sn d prog léG don leficaC é redoutabl. Perso jutiliZ 7Zip ki é gratui é ki C compreS é décompreS d fichié en utiliZ lé divR algo actuelmen utiliZ."

Message reçu. "Ttobstin a voulwar utiliZ 1 char dasso la ou i fo 1 pins a épilé. Lalgo de compreSion d fichié sn d prog léG don leficaC é redoutabl. Perso jutiliZ 7Zip ki é gratui é ki C compreS é décompreS d fichié en utiliZ lé divR algo actuelmen utiliZ." veut dire "Tu t'obstines à vouloir utiliser un char d'assaut là où il faut une pince à épiler. Les algorithmes de compression des fichiers sont des programmes légers dont l'efficacité est redoutable. Personnellement j'utilise 7Zip qui est gratuit et qui sait compresser et décompresser des fichiers en utilisant les divers algorithmes actuellement utilisés.". C'est une façon d'écrire très incorrecte et familière qui ne respecte pas les règles d'orthographe et de grammaire du français. Par exemple, il faut écrire "tu" avec un "u" à la fin, "à" avec un accent grave, "vouloir" avec un "i" après le "o", "utiliser" avec un "s" à la place du "z", "un" avec un "n" à la fin, "assaut" avec un "t" à la fin, "où" avec un accent circonflexe, "il" avec un "l" à la fin, "faut" avec un "t" à la fin, "épiler" avec un "é" à la place du "é", "les" avec un "s" à la fin, "compression" avec deux "s", "fichiers" avec un "h", un "e" et un "s", "sont" avec un "t" à la fin, "légers" avec un accent aigu sur le premier "e", un deuxième "e" et un "s", "dont" avec un "t" à la fin, l'efficacité avec deux accents aigus sur les deux premiers "e", redoutable avec un accent aigu sur le premier "e", personnellement avec deux accents aigus sur les deux premiers "e", j'utilise avec une apostrophe après le j et un s à la place du z, 7Zip sans espace entre le 7 et le Z, qui avec un i à la fin, est avec un t à la fin, sait avec un t à la fin, compresser et décompresser avec deux s chacun, en avec un n à la fin, utilisant avec un s à la place du z, les divers avec un s à la fin de chaque mot, algorithmes sans majuscule et actuellement sans majuscule.

Il s'agit de BING mais c'est une IA qui n'est pas spécialement entrainée pour cela d'où ma question de savoir si on pourrait entrainer une IA pour cette fonction. L'intérêt serait peut-être dans le stockage de données de long terme qui n'ont pas besoin d'être mise à jour.

**JPL** · 04/05/2023, 18h58

C’est une obsession !

**Liet Kynes** · 04/05/2023, 19h18

Je ne comprends pas, si un système permet de prémâcher le travail en réduisant le nombre de caractères d'un texte, il y a bien ensuite un gain entre les deux textes une fois compressés non ?

**JPL** · 04/05/2023, 19h29

C’est une idée ridicule alors que le moindre programme de compression, qui peut s’exécuter sur n’importe quel ordinateur fait des prouesses impressionnantes sans nécessiter de mobiliser l’énorme machinerie d’une IA. Le rapport qualité-prix, pour un pouillème de gain supplémentaire (et encore pas garanti) éventuel disqualifie complètement ton idée.

**Liet Kynes** · 04/05/2023, 19h38

Envoyé par JPL

C’est une idée ridicule alors que le moindre programme de compression, qui peut s’exécuter sur n’importe quel ordinateur fait des prouesses impressionnantes sans nécessiter de mobiliser l’énorme machinerie d’une IA. Le rapport qualité-prix, pour un pouillème de gain supplémentaire (et encore pas garanti) éventuel disqualifie complètement ton idée.

Je ne suis pas certain de cela, mais cela fait partie de la question. Si l'on parle d'un gain de 5 % par exemple, cela peut correspondre à de substantielles économies à l'échelle du Big data. Ce gain hypothétique est le cœur de la question avec le fait de savoir si c'est faisable ou pas techniquement. C'est ensuite à rapprocher au coût en énergie pour faire travailler l'IA en entrée et en sortie de l'archive : c'est aussi pour cela que j'évoque des données qui n'ont pas vocation à être mises à jour ni à être souvent consultées une fois archivée.

**JPL** · 04/05/2023, 20h21

Errare humanum est, perseverare diabolicum

**jiherve** · 04/05/2023, 20h43

bonsoir
j'abonde et le soucis du stockage longue durée n'est pas tant son volume que la pérennité du média de stockage et là il y a beaucoup de progrès à faire ; Mais peut être qu'une IA aura l'idée géniale pour çà!

JR

ArchoZaure · 04/05/2023, 21h47

Bon admettons que je sois magicien et que je fasse ce que vous demandez.
Maintenant toutes la pages sont mémorisées "de manière corrigée" et effectivement on a gagné un chti poil.

Reprenons maintenant votre message...
#10 https://forums.futura-sciences.com/d...ml#post7088785

Mince alors on peut plus discuter ?

**Liet Kynes** · 05/05/2023, 04h58

Envoyé par jiherve

bonsoir
j'abonde et le soucis du stockage longue durée n'est pas tant son volume que la pérennité du média de stockage et là il y a beaucoup de progrès à faire ; Mais peut être qu'une IA aura l'idée géniale pour çà!

JR

Ben justement si les volumes sont moins importants le coût de l'archivage est moindre: moins de support, moins de réécritures ou migrations de données nécessaires etc...

**GBo** · 05/05/2023, 09h38

Envoyé par Liet Kynes

Ben justement si les volumes sont moins importants le coût de l'archivage est moindre: moins de support, moins de réécritures ou migrations de données nécessaires etc...

Je te signale quand même qu'en passant de ton prompt horribilis:

"si jécri en fesan plein de fote es ce ke tu peu coprendre ?"

à la traduction du bot en bon Français :

“si j’écris en faisant plein de fautes est-ce que tu peux comprendre ?”

...tu n'as pas procédé à une compression mais à une expansion...

ArchoZaure · 05/05/2023, 10h42

Envoyé par Liet Kynes

Ben justement si les volumes sont moins importants le coût de l'archivage est moindre: moins de support, moins de réécritures ou migrations de données nécessaires etc...

Et moins de données.
par exemple et comme déjà dit plus haut, visualiser la discussion mémorisée compressée (à votre manière) puis décompressé pour être lue risque de s'avérer surréaliste.
Et d'ailleurs pourquoi ne pas aussi traduire toutes ces langues étrangères pour gagner de la place ?
On aurait par exemple pour le dico français/anglais une entrée du genre : ready se traduit par ready.
Ça simplifie tout.

D'autre part, il ne faut pas oublier que le résultat de la meilleur compression est déjà connu.
C'est 42.
Évidemment la question (l'algorithme de décompression) qui donne la réponse 42 est assez complexe.

ArchoZaure · 05/05/2023, 10h50

Envoyé par GBo

...tu n'as pas procédé à une compression mais à une expansion...

Oui sur une seule phrase, mais si prenez plus de mots et par exemple compressez en attribuant un nombre à un type de mot, le nombre de nombres possibles est réduit au nombre de types de mots possibles de la langue française et non plus au nombre de types de mots possibles, faux ou pas.
Ça vous fait un dico de compression bien plus court que si vous prenez en compte en plus tous les nouveaux types de mots erronés.
Par contre si vous corrigez les mots, vous réduisez certes la complexité de l'ensemble mais perdez aussi de l'information.

**Liet Kynes** · 05/05/2023, 19h11

Envoyé par GBo

...

Tu n'as absolument rien compris, je ferai un schéma demain (flemme ce soir), l'idée réside dans le fait que l'IA doit être capable de réduire la taille d'un texte A (réduire en nombre de caractères) en l'exprimant d'une façon ou d'une autre dans un texte B et le fait qu'elle puisse retraduire le texte B qu'elle a elle-même générée pour retrouver le texte A dans son intégrité. Mais j'imagine que c'est un peu compliqué à comprendre-> schémas demain avec les boucles de rétro actions, les algos intermédiaires etc..

**jiherve** · 05/05/2023, 19h20

bonsoir
telle que fonctionne une IA conversationnelle cela sera toujours avec pertes , les algo de compression classiques sont bien plus efficaces, nota il y a une liaison avec l'entropie:
https://en.wikipedia.org/wiki/Entropy_coding
JR

**JPL** · 05/05/2023, 19h55

@ Liet Kynes

Le prochain message que tu postes sur cette idée débile sera supprimé !

**Liet Kynes** · 05/05/2023, 21h08

Bon, je suppose que c'est une incitation forte pour que je demande la suppression de mon compte ?

**JPL** · 05/05/2023, 23h05

Absolument pas. Simplement tu t’es enferré dans une mauvaise idée que tu ne veux pas lâcher malgré tout ce qu’on te dit. La discussion ne menant à rien elle est fermée.

Scalabilité et IA conversationelles

Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles

Re : Scalabilité et IA conversationelles