Bonjour !
Pour un entretien technique, on m'a envoyé ce papier StyleTTS2 et on m'a demandé de le lire et de le comprendre.
Le souci, c'est que je suis actuellement en L3 et je dois vous dire que je débute en tout ce qui concerne l'IA.
J'aimerais savoir si quelqu'un pourrait me fournir des ressources qui expliqueraient un peu mieux son fonctionnement ou, encore mieux, m'expliquer directement certains points du papier.
J'ai commencé à le lire et j'ai compris les lignes directrices du projet. StyleTTS2 est un modèle basé sur StyleTTS pour la synthèse audio. Il modélise le style de la voix en utilisant ce qu'ils appellent le "Style Vector", qui est une variable aléatoire latente obtenue par le biais de modèles de diffusion (latente ?). Un autre ajout du modèle est leur utilisation de l'entraînement adversarial avec des SLMs comme discriminateurs du "differentiable duration mdoeling for E2E training".
J'aimerais beaucoup me concentrer davantage sur la partie 3. Methods du papier si certains d'entre vous sont familiers avec le modèle.
Merci !
-----