Bonsoir, j'ai des questions physiques sur la reconnaissance vocale.
Tout d'abord, lorsqu'on traite un signal en reconnaissance vocale, il est obligatoire de couper le signal en courtes trames, généralement d'une durée de 20 à 30 ms et on va appliquer des opérations mathématiques sur ces trames. Cependant, j'ai compris que cela était motivé par le fait que sur une telle durée, le signal pouvait être considéré comme quasi-stationnaire. Mais je ne vois pas en quoi cela est nécessaire pour avoir des résultats probants avoir des résultats efficaces en reconnaissance vocale.
De plus, j'ai une autre question sur les coefficients cepstraux. S'il y a des connaisseurs, je connais maintenant parfaitement la méthode d'obtention des coefficients cepstraux mais je ne vois pas ce qu'ils représentent physiquement exactement.
Merci beaucoup d'avance.
Et désolé, cela fait beaucoup de questions d'un coup
-----