Physique et reconnaissance vocale

invite782ed957 · 20/02/2018, 20h26

Bonsoir, j'ai des questions physiques sur la reconnaissance vocale.
Tout d'abord, lorsqu'on traite un signal en reconnaissance vocale, il est obligatoire de couper le signal en courtes trames, généralement d'une durée de 20 à 30 ms et on va appliquer des opérations mathématiques sur ces trames. Cependant, j'ai compris que cela était motivé par le fait que sur une telle durée, le signal pouvait être considéré comme quasi-stationnaire. Mais je ne vois pas en quoi cela est nécessaire pour avoir des résultats probants avoir des résultats efficaces en reconnaissance vocale.

De plus, j'ai une autre question sur les coefficients cepstraux. S'il y a des connaisseurs, je connais maintenant parfaitement la méthode d'obtention des coefficients cepstraux mais je ne vois pas ce qu'ils représentent physiquement exactement.

Merci beaucoup d'avance.
Et désolé, cela fait beaucoup de questions d'un coup

invite40271050 · 21/02/2018, 09h07

Bjr à toi,
"....Mais je ne vois pas en quoi cela est nécessaire pour avoir des résultats probants avoir des résultats efficaces en reconnaissance vocale. ...."
On va faire simple:
à supposer que tu découpes toutes les secondes ces mots " bonjour à vous".
Donc ces 3 mots se retrouvent en un seul mot numérique ( ex: 011100110 .)..comment
le logiciel va restituer cette trame ?
Par contre si tu découpes en " bon" "jour" "à " vous". le logiciel aura une valeur pour chaque syllabe (quasi stationnaire)
et pourra ainsi retraduire ensuite.
Donnc il faut faire "court" pour avoir ensuite une reconstitution la plus fidéle possible.
Bonne journée

**penthode** · 21/02/2018, 09h15

hello ,

TRENTE MILLISECONDES de période d'échantillonnage , soit une fréquence de 1/03= 33 Hertz.....

ça me parait bien peu

(regarde le théorème de Shannon )

**albanxiii** · 21/02/2018, 11h37

Bonjour,

Si je puis me permettre, je pense que untaupin veut dire que le signal vocal est considéré comme des suites d'intervalles de 30-30 ms et que chaque intervalle est échantillonné à la fréquence qui convient (8 kHz ou 64 kHz, que sais-je, en fonction du traitement à appliquer).

N'étant pas spécialiste de reconnaissance vocale, je ne peux pas entrer dans les détails de l'hypothèse de stationnarité du signal, mais c'est souvent une hypothèse qui permet des traitements mathématiques "commodes". Je pense que vous trouverez beaucoup plus d'infos dans un cours spécialisé (qui doit se trouver sur le net, enfin, j'espère, vu tout ce qu'on y trouve...).

A voir en vidéo sur Futura · Aujourd'hui

**inviteb9f49292** · 21/02/2018, 13h42

De plus, j'ai une autre question sur les coefficients cepstraux. S'il y a des connaisseurs, je connais maintenant parfaitement la méthode d'obtention des coefficients cepstraux mais je ne vois pas ce qu'ils représentent physiquement exactement.

Loin d'être un connaisseurs, je fais appel à mes vieux souvenirs (à vérifier donc): l'origine de ces coeffs est une modélisation de la gorge, de la tête qui fait caisse de résonance etc... Le tout étant idéalisé comme un filtre, les "notes pures" issues des cordes vocales étant modifiées par ce canal de transmission. Il y a peut-être également des éléments de la physiologie de l'oreille qui rentrent en compte (c'est le cas du MP3). Du coup, de manière très vulgaire, tu utilises une famille de fonction de base qui ne sont pas du sinus/cosinus et mieux adaptées au "modèle" de la voix, tes coeff étant les pondérations utilisées.
La page wikipedia à l'air d'être un bon début

invite782ed957 · 28/02/2018, 11h23

Merci de ta réponse f6bes. Mais admettons que je m'occupe seulement du mot "bonjour". En quoi cela est-il plus fiable de traiter "bon" "jour" que de traiter directement le mot en entier ? Y'a t'il un lien quelconque avec les Transformées de Fourier ou pas du tout ?

invite782ed957 · 28/02/2018, 11h26

Merci albanxiii de ta réponse. Oui effectivement sur internet j'ai aussi lu que cela permet d'avoir des traitements mathématiques fiables, mais sans réelles explications, c'est pourquoi je posais la question ici.
Je vais essayer de chercher plus en détail

invite40271050 · 28/02/2018, 12h01

Envoyé par untaupin

Merci de ta réponse f6bes. Mais admettons que je m'occupe seulement du mot "bonjour". En quoi cela est-il plus fiable de traiter "bon" "jour" que de traiter directement le mot en entier ? Y'a t'il un lien quelconque avec les Transformées de Fourier ou pas du tout ?

Remoi,
Si tu traites le mot dans son entité, tu risques d'avoir ( ex.11000101 )
Si tu as un AUTRE mot qui donne le MEME résultat (11000101 ) comment llogiciel va t il
reconstituer le mot..initial ?
Tu ne sauras jamais si c'est bonjour ou l'autre mot.
Et ça risque d'etre...n'importe quoi...sauf ce que l'on attend.
meme le mot " bonjour" va falloir le découper en de nombreuses "tranches". si on veut vraiment
le reconstituer le plus fidélement possible.
Bonne journée

Physique et reconnaissance vocale

Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Re : Physique et reconnaissance vocale

Discussions similaires

TPE - Reconnaissance vocale

reconnaissance vocale

la reconnaissance vocale

Logiciel de reconnaissance vocale...

reconnaissance vocale