je me suis placé dans l'hypothèse du test de Turing, où on admettait que le but était de trouver des phrases testant de manière efficace la nature humaine de l'interlocuteur. Il y a peut etre d'autres approches que le langage, mais celui-ci me parait effectivement très bien adapté.
La difficulté principale à resoudre me semble l'adéquation du volume de phrases et de mots "ayant un sens" avec celui d'un être humain. Je m'explique. Le nombre de combinaisons de phrases et de mots "faisant sens" est extrêmement élevé, bien plus que toutes les possibilités de stockage explicite dans une base de données, donc c'est impossible de prévoir à l'avance toutes les réponses possibles; on ne peut qu'espérer générer un algorithme bien plus compact mais qui aurait la propriété de générer un volume proche de celui d'un être humain.
Or ce volume a beau être extrêmement élevé, sa "topologie" dans l'espace des possibilités est extrêmement complexe et "fractale" . Il suffit de très peu de choses (un mot en trop ou en moins, une permutation), pour que les phrases prennent un sens totalement différent , voire perdent totalement leur sens.
C'est donc un problème extrêmement difficile de reproduire cette espace à la fois dans sa totalité et sans erreur : il est en effet extremement difficile de controler un volume énorme (mettons 10^(10^10) par exemple à un facteur 10 près. Or se tromper d'un facteur 10 en trop veut dire que 90 % des phrases générées seront incorrectes, et 10 en moins veut dire que tu n'es capable de générer que 10 % de réponses attendues d'un être humain; en réalité chaque être humain n'est effectivement capable de générer qu'une toute petite fraction de l'ensemble des phrases potentielles, mais encore une fois il est très difficile de savoir exactement les caractéristiques de ce sous-volume qui font que ça parait humain !!
en pratique, les programmes traitant du langage n'y arrivent pas et péchent soit pas excès, soit par défaut. Les programmes de traduction automatiques cherchent à recouvrir l'ensemble des possibilités mais du coup génèrent très souvent des phrases sans signification ou trop bizarres pour avoir été engendrées par des humains; et inversement les programmes de conversation cherchent à n'engendrer que des phrases correctes mais sont extrêmement limités dans leur contenu. C'est donc un test globalement très discriminant..
-----