Bonjour,
En lien avec cette réflexion, un autre benchmark en voie de caducité.
En bref et en français, il s'agit d'une série de tâches mesurant la compréhension humaine du langage. La sous-tâche la plus difficile de ce benchmark s'est révélée être d'indiquer à quoi réfère un pronom en fonction des mots. Exemple:
La performance obtenue serait* légèrement supérieure à un humain moyen (ce qui est généralement moins bien qu'un comité d'expert qui discute chaque exemple), ce qui représente une nette progression (la performance antérieure était nettement sous-humaine pour cette sous-tâche).Envoyé par qui est "ils" ?
La suite? Même programme** que d'habitude.
A+
*c'est très crédible, mais pas encore sur github, donc au conditionnel pour probablement quelques semaines ou quelques mois
**
***Code:While boolean(exist(recherche, IA)): 1. Utiliser les résultats pour améliorer les applications de production de texte % "deepfake" pour les images 2. Inventer de nouveaux benchmarks valorisant d'autres sous-habiletés spécifiques plus difficiles 3. Inventer de nouveaux réseaux capables de bien performer à ces benchmarks 4. Intégrer les performances d'un maximum de réseaux dans une entité logique la plus petite possible
-----