OpenAI a présenté un nouveau système de reconnaissance automatique de la parole (ASR) appelé Whisper sous la forme d’un kit logiciel open-source sur GitHub. L’IA de Whisper peut transcrire des conversations en plusieurs langues et les traduire en anglais, et les équipes de GPT-3 affirment que l’entraînement de Whisper permet de mieux distinguer les voix dans des environnements bruyants et de comprendre les accents lourds et le langage technique.

La reconnaissance automatique de la parole, souvent appelée ASR, transforme le langage parlé en texte. Il s’agit d’un logiciel de conversion de la parole en texte qui convertit automatiquement votre voix en langage écrit.

Cette technologie a de nombreuses applications, notamment les logiciels de dictée et de messagerie vocale visuelle.

Speech to text: découvrons Whisper, outil d’ ASR (Automatic speech recognition)

OpenAI a entraîné Whisper à partir de 680 000 heures de données audio et de transcriptions correspondantes en 98 langues collectées sur le web. Selon OpenAI, cette approche de collecte ouverte a conduit à « une meilleure robustesse aux accents, au bruit de fond et au langage technique. » Il peut également détecter la langue parlée et la traduire en anglais.

OpenAI décrit Whisper comme un transformateur encodeur-décodeur, un type de réseau neuronal qui peut utiliser le contexte glané dans les données d’entrée pour apprendre des associations qui peuvent ensuite être traduites dans la sortie du modèle. OpenAI présente cet aperçu du fonctionnement de Whisper :

L’audio d’entrée est divisé en morceaux de 30 secondes, converti en un spectrogramme log-Mel, puis transmis à un encodeur. Un décodeur est entraîné à prédire la légende du texte correspondant, mélangé à des jetons spéciaux qui dirigent le modèle unique vers des tâches telles que l’identification de la langue, l’horodatage au niveau de la phrase, la transcription multilingue de la parole et la traduction de la parole en anglais.

Bien qu’impressionnant, le document de recherche d’OpenAI suggère que l’ASR n’est vraiment performant que dans une dizaine de langues, une limitation qui découle probablement du fait que les deux tiers des données d’entraînement sont en anglais. Et bien qu’OpenAI admette que la précision de Whisper n’est pas toujours à la hauteur des autres modèles, la nature « flexible » de son entrainement lui donne une longueur d’avance sur les autres modèles. Et bien que l’entrainement  « flexible » permette à Whisper de discerner et de transcrire la parole à travers le bruit de fond et les variations d’accent, elle crée également de nouveaux problèmes.

Un logiciel de reconnaissance vocale open source

Selon Openai, « Nos études montrent que, par rapport à de nombreux systèmes ASR existants, les modèles présentent une meilleure robustesse aux accents, au bruit de fond, au langage technique, ainsi qu’à la traduction de plusieurs langues vers l’anglais ; et que la précision de la reconnaissance vocale et de la traduction est proche de ce qui se fait de mieux », expliquent les chercheurs d’OpenAI sur GitHub. « Cependant, comme les modèles sont formés de manière faiblement supervisée en utilisant des données parasitées par du bruit de fond à grande échelle, les prédictions peuvent inclure des textes qui ne sont pas réellement prononcés dans l’audio (c’est-à-dire ce qu’on appelle le phénomène d’hallucination). Nous supposons que cela se produit parce que, étant donné leur connaissance générale du langage, les modèles combinent l’essai de prédire le prochain mot dans l’audio avec l’essai de transcrire l’audio lui-même. »

OpenAI fait beaucoup parler d’elle pour GPT-3 et d’autres produits comme le générateur de texte-image DALL-E. Whisper donne un aperçu de la manière dont la recherche en IA de la société s’étend à d’autres domaines. Whisper est un logiciel libre, mais la valeur de la reconnaissance vocale par l’IA à base de réseaux neuronaux pour les particuliers et les entreprises a été prouvée de manière concluante à ce stade. Whisper pourrait être un point de départ pour l’adhésion d’OpenAI, comme l’ont déjà spéculé les chercheurs.

Openai prévoit que les capacités de transcription des modèles Whisper pourront être utilisées pour améliorer l’accessibilité de certains outils. Bien que les modèles Whisper ne puissent pas être utilisés d’emblée pour la transcription en temps réel, leur vitesse et leur taille suggèrent que d’autres entités pourraient être en mesure de créer des applications permettant la reconnaissance et la traduction de la parole en temps quasi réel.