Le monde de l’IA a radicalement transformé la vie quotidienne des individus. Des fonctionnalités telles que la reconnaissance vocale ont rendu relativement plus simple l’exécution de tâches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend très efficace. Avec le développement de l’IA, les applications de reconnaissance vocale se sont rapidement développées. Les assistants virtuels comme Google, Alexa et Siri utilisent un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. De même, des fonctions comme la synthèse vocale, la synthèse de la parole en texte et la synthèse de texte en texte ont également gagné en popularité avec des applications variées.

La synthèse vocale est essentielle à l’intelligence artificielle (IA), notamment pour les robots conversationnels. Les développements récents en matière d’apprentissage profond ont permis d’améliorer de manière significative la qualité de la parole synthétisée produite par les systèmes de synthèse vocale (TTS) basés sur les réseaux neuronaux. Les êtres humains maintiennent des conversation avec diverses prosodies, qui expriment des informations paralinguistiques, telles que des émotions subtiles.

Ces conversations de notre quotidien sont utilisées pour entrainer des systèmes efficacement et ainsi obtenir des  voix de synthèse proche de la qualité humaine . Voici différentes approches innovantes observées dernièrement et qui laissent entrevoir des progrès fulgurants pour les mois à  venir.

TTS quantifié par vecteur multi-codebook

Des chercheurs de la CMU ont dévoilé un système d‘IA pour l’apprentissage de la synthèse vocale de qualité humaine à partir de différents types de conversations. Dans leur étude, les chercheurs ont examiné l’utilisation de la parole du monde réel recueillie à la fois sur YouTube et dans des podcasts. Dans ce cas, ils ont simplifié l’environnement en tirant parti d’un corpus de paroles déjà enregistrées et en se concentrant sur la synthèse vocale. Ils pensent ainsi pouvoir être capable de reproduire le succès de modèles de langage importants comme GPT-3.

Avec peu de ressources, ces systèmes peuvent être adaptés à certaines caractéristiques du locuteur ou à certaines conditions d’enregistrement. Dans cette étude, les auteurs abordent les nouvelles difficultés rencontrées lors de l’entraînement des systèmes TTS sur la parole du monde réel, comme le bruit de fond et la variance prosodique accrue par rapport à la lecture de la parole enregistrée en situation contrôlée. Ils montrent d’abord que les algorithmes autorégressifs basés sur le mel-spectrogramme ne peuvent pas fournir un alignement texte-audio précis pendant l’inférence, ce qui conduit à une parole brouillée. L’échec de l’alignement par inférence peut donc être correctement attribué à l’accumulation d’erreurs dans le processus de décodage, car ils démontrent également que des alignements précis peuvent encore être appris pendant l’entraînement.

Les chercheurs ont découvert que ce problème était résolu en substituant des codebooks discrets appris au mel-spectrogramme. Ils expliquent ce phénomène par la résistance supérieure des représentations discrètes au bruit d’entrée. Cependant, leurs résultats montrent qu’un seul codebook entraîne une reconstruction biaisée pour la parole du monde réel, même avec des codebooks de plus grande taille. Ils supposent qu’il existe trop de modèles prosodiques dans la parole spontanée pour qu’un codebook puisse les gérer. Ils utilisent plusieurs codebooks pour créer des architectures particulières pour l’échantillonnage multi-code et l’alignement monotone. Ils utilisent une invite audio de silence pur pendant l’inférence pour encourager le modèle à produire de la parole pure malgré un entraînement sur un corpus bruyant.

Ils ont introduit cette technologie appelée MQTTS (multi-codebook vector quantized TTS).  Les chercheurs ont publié leur code source. L’implémentation du code est rendue publique sur GitHub.

Hugging Face Transformers se dote d’un nouveau modèle de synthèse vocale avec l’ajout de SpeechT5

Encouragés par les performances exceptionnelles de T5 (Text-To-Text Transfer Transformer) dans les modèles de traitement du langage naturel pré-entraînés, les scientifiques ont proposé un framework SpeechT5 à modèle unifié qui explore le pré-entraînement codeur-décodeur pour l’apprentissage auto-supervisé de la représentation de la parole et du texte. SpeechT5 est proposé via Hugging Face Transformers, une boîte à outils open-source qui fournit des implémentations simples de modèles d’apprentissage automatique de pointe.

SpeechT5 offre trois différents types de modèles de parole dans une seule et même architecture. En utilisant une structure standard d’encodeur-décodeur, le cadre de modèle unifié de SpeechT5 permet l’apprentissage de représentations contextuelles combinées pour les données vocales et textuelles. Ses différents modèles de parole sont :

  1. Text-to-speech : pour créer de l’audio à partir de texte
  2. Speech-to-text : pour reconnaître la parole automatiquement.
  3. Speech-to-speech : pour réaliser une modification de la parole ou passer d’une voix à une autre.

Le principe fondamental de SpeechT5 est de pré-entraîner un modèle en utilisant une combinaison de données de texte à parole, de parole à texte, de texte à texte et de parole à parole. De cette manière, le modèle apprend simultanément à partir de la parole et du texte. Cette méthode de pré-entraînement produit un modèle avec un seul espace de représentations cachées partagé par le texte et l’audio.

SpeechT5 est basé sur un modèle d’encodeur-décodeur Transformer standard. Le réseau encodeur-décodeur simule une transformation séquentielle en utilisant des représentations cachées, comme tout autre Transformer. Toutes les tâches de SpeechT5 partagent le même cadre Transformer.

L’ajout de pré-réseaux et de post-réseaux a permis au même Transformer de traiter des données textuelles et vocales. Les pré-réseaux traduisent le texte ou la parole en entrée dans les représentations cachées du Transformer. Le post-net prend les sorties du Transformer et les reformate en texte ou en parole. Afin d’entraîner le modèle pour un ensemble diversifié de langues, l’équipe alimente le modèle avec des formats texte/parole en entrée et génère ainsi la sortie correspondante en format texte/parole.

Contrairement à d’autres modèles, SpeechT5 est unique car il permet aux utilisateurs de réaliser de nombreuses activités en utilisant la même architecture. Tout ce qui change, ce sont les pré-nets et les post-nets. Le modèle peut effectuer chaque tâche distincte de manière plus efficace après avoir été affiné par un pré-entraînement sur ces tâches combinées. L’approche unifiée codeur-décodeur proposée est capable de prendre en charge des tâches de génération telles que la conversion de la voix et de la parole. Des tests à grande échelle révèlent que SpeechT5 surpasse considérablement toutes les solutions de base dans diverses tâches de traitement du langage parlé. L’équipe de recherche prévoit de pré-entraîner le SpeechT5 à l’avenir avec un modèle plus grand et davantage de données non étiquetées. Dans le cadre de travaux futurs, les scientifiques souhaitent également faire évoluer SpeechT5 pour résoudre des tâches impliquant le traitement du langage parlé dans plusieurs langues.

Microsoft a dévoilé VALL-E, un modèle linguistique de synthèse vocale qui change la donne

Microsoft a présenté VALL-E, un nouveau modèle de langage pour la synthèse vocale (TTS) qui utilise des codes de codecs audio comme représentations intermédiaires et peut reproduire la voix de n’importe qui après avoir écouté seulement trois secondes d’enregistrement audio.

VALL-E est un modèle de langage à codecs neuronaux dans lequel l’IA segmente la parole et utilise ses algorithmes pour construire des formes d’onde qui ressemblent à la voix du locuteur, en conservant notamment son timbre et son ton émotionnel.

Selon l’article, VALL-E peut produire une parole personnalisée de haute qualité avec seulement un enregistrement de trois secondes d’un locuteur  servant de stimulus acoustique. Il n’a pas besoin d’ingénierie structurelle supplémentaire, de caractéristiques acoustiques préconçues ou de réglage fin.

Des démonstrations audio du modèle IA en action sont fournies par VALL-E. Le « Speaker Prompt », l’un des échantillons, est un signal auditif de trois secondes que VALL-E doit reproduire. À des fins de comparaison, le « Ground Truth » est un extrait précédemment enregistré du même locuteur utilisant une certaine phrase (un peu comme le « contrôle » dans l’expérience). L’échantillon « Baseline » représente un exemple typique de synthèse texte-parole, et l’échantillon « VALL-E » représente la sortie du modèle VALL-E.