Voix enregistrée ou voix synthétique

**marjo92blabla** · 05/12/2018, 22h53

Bonjour,

Je ne sais pas si je suis au bon endroit pour poser cette question mais je me demandais comment sont créées les voix synthétiques ?
J’ai vu sur internet que sur ordinateur pour obtenir un lecteur vocal synthétique en ligne il suffisait d’enregistrer quelques mots prononcés par une voix humaine et ensuite l’ordinateur pourrait générer automatiquement de nouveaux mots basés sur les premiers.
Seulement, ça me parait vraiment simple c’est vraiment le cas ?

Et je ne comprends pas, par exemple dans le cas d’une liste de mots pré-enregistrés pour s’entraîner à écouter des sons comme en orthophonie ou pour des tests vocaux en audiologie on dit que ce sont des tests émis en «*voix enregistrée*», dans ce cas il me semble que c’est une simple voix humaine posée et enregistrée de sorte que le test soit répétable. Mais alors quel est l’interêt d’utiliser une voix recréée artificiellement plutôt qu’une voix humaine ?? La seule utilisation notable que je vois est celle des assistants vocaux type Google et Amazon Écho, et encore je me dis qu’ils auraient pu pré enregistrer toutes ces phrases avec une voix humaine directement ... non ? Plutôt que de s’embêter à retoucher les composantes vocales artificiellement !

Ou quelque chose m’échappe...!

invite01703c44 · 05/12/2018, 23h19

Bonjour,
La ligne de partage est le nombre.
Si le nombre de message est relativement faible (exemple : les répondeurs vocaux "tapez 1 si ...', des annonces SNCF "train en retard", "train supprimé"...) les messages enregistrés sont une bonne solution.
Si le nombre est statique mais très grand (les noms de lieux de votre GPS par exemple) ou à construction dynamique peu prévisible (réponse de l'avis de Cortana sur Alexa par exemple

) seul les solutions de synthèse sont envisageables.

Il y a deux composantes :
1/ le timbre de la voix (qui peut être effectivement changé assez facilement).
2/ les règles de prononciation des mots, des liaisons, des phrases et des intentions/contexte (la même phrase avec un "?" véhicule une intention différente, "les poules du couvent couvent" pour le contexte). Et ça ce n'est pas trivial.

Salutations

**marjo92blabla** · 05/12/2018, 23h31

Salut,
Merci de ta réponse, je comprends mais en fait, si on prend pour exemple l’assistant vocal type Siri qui va répondre à une question précise, de toute façon il aura fallu pré-enregistrer sa réponse et prévoir aussi toutes les autres réponses qu’il pourrait potentiellement donner...! Comment c’est possible ça ? Ça fait une multitude de phrases pre-enregistrees, Siri est pas en impro a priori ��

Il est intéressant ton exemple, «*les poules du couvent couvent*» bonjour la galère pour le logiciel ...Tu as une idée de comment il fait pour savoir comment prononcer cette phrase ? C’est une histoire de «*syntaxe*» c’est ça ?

invite01703c44 · 06/12/2018, 00h08

Bonsoir,

Non les réponses ne sont pas préexistantes, elles sont construites en temps réel (et quelques fois la réponse est à coté de la plaque) avant d'être passées à la moulinette qui les lira à haute voix (je pense que chaque mot est déjà accompagné de méta données - nature du mot, domaine de pertinence etc. pour faciliter la lecture).

Je ne suis pas un spécialiste de ce domaine mais ce n'est pas seulement syntaxique, il y a également une analyse contextuelle qui pondère les interprétations possibles. Même si pour l'exemple des poules l'analyse syntaxique pourrait suffire (le premier couvent est un substantif puisque précédé de "du" et il n'y a pas de verbe possible autre que couvent) on comprend bien que poule introduit une pondération forte sur des mots comme oeufs, plumes, coq, couver etc et faible sur anticonstuitutionnellement

.

Balabolka est par exemple un freeware qui lit des textes (.doc etc.) Il n'a pas la puissance des outils des GAFA mais c'est intéressant à faire fonctionner.

Salutations

A voir en vidéo sur Futura · Aujourd'hui

invite936c567e · 06/12/2018, 00h48

Bonsoir

Je ne saurais dire comment ça se passe dans le cas particulier de Siri, mais sur le principe :

• Si le système qui produit la voix synthétisée en génère également le contenu sémantique, alors il ne serait pas raisonnable qu'il parte d'un texte en français dont on ignore a priori la prononciation exacte. Il est plus sûr qu'il se base directement sur la phrase enregistrée ou transmise sous forme phonétique, avec l'intonation.

• Dans le cas où la synthèse vocale s'appuie sur la lecture d'un texte, une analyse syntaxique permet le plus souvent de lever les incertitudes quant à la prononciation. En l'occurrence, dans la phrase « les poules du couvent couvent », le mot « couvent » qui suit l'article partitif « du » ne peut pas être un verbe, il s'agit donc du nom commun, puis le second mot « couvent » est reconnu comme étant, selon une forte probabilité (même si ce n'est pas sûr à 100%), le verbe de la phrase. C'est l'analyse que fait par exemple la synthèse vocale de Google Translate, qui prononce correctement la phrase, comme on peut l'entendre ici. Mais il arrive tout de même parfois que ces systèmes se trompent.

[EDIT : Grillé. J'ai mis trop de temps à poster ma réponse.]

Voix enregistrée ou voix synthétique

Voix enregistrée ou voix synthétique

Re : Voix enregistrée ou voix synthétique

Re : Voix enregistrée ou voix synthétique

Re : Voix enregistrée ou voix synthétique

Re : Voix enregistrée ou voix synthétique

Discussions similaires

Son de la voix

Les voix ... ?

TPE la voix et ses modifications (hélium, voix de tete, tabac ...)

TPE sur la voix

mue de la voix