Reconnaissance vocale et speech-to-text, voix de synthèse: Whisper 3 est là

OpenAI dévoile Whisper 3 : le modèle ASR Open Source de nouvelle génération

Lors de la récente journée des développeurs d’OpenAI, Whisper large-v3 a été dévoilé. Il s’agit d’une mise à jour du modèle de reconnaissance automatique de la parole (ASR) open-source. Ce développement marque une avancée significative dans la technologie de la reconnaissance vocale, OpenAI prévoyant d’étendre sa diffusion par le biais d’une API accessible aux utilisateurs dans un avenir proche.

Performances accrues en anglais et capacités multilingues

Whisper 3 excelle dans les applications en langue anglaise, en particulier avec ses modèles tiny.en et base.en, atteignant des taux de précision impressionnants. Cependant, les performances du modèle varient en fonction des langues, un défi qu’OpenAI continue de relever.

Initialement centré sur l’anglais, le modèle a évolué depuis sa sortie initiale en septembre de l’année dernière. Le mois de décembre a vu l’introduction de la version 2, qui élargit son champ d’application linguistique pour inclure plusieurs langues, bien que ces langues spécifiques n’aient pas été explicitement nommées.

Un outil pour des applications diverses

Disponible sur GitHub sous une licence permissive, Whisper large-v3 est réputé pour sa capacité à transcrire des contenus variés. Ses fonctionnalités exceptionnelles et sa facilité d’utilisation lui ont valu le titre de meilleur outil de transcription actuellement disponible. Il se distingue notamment par sa section d’horodatage unique, particulièrement utile pour la création de sous-titres pour des plateformes telles que YouTube.

Le modèle traite l’audio en le divisant en segments de 30 secondes, qui sont ensuite décodés pour prédire les sous-titres textuels correspondants. En outre, il comporte une fonction d’identification de la langue, ce qui lui permet de transcrire et de traduire en anglais des discours multilingues.

Intégration avec ChatGPT et Focus sur la recherche

Bien qu’il ait été initialement prévu d’intégrer ChatGPT pour une interaction directe de la parole au texte, OpenAI a choisi de mettre le modèle à la disposition du public, en s’adressant principalement à la communauté des chercheurs. Cette décision souligne l’engagement d’OpenAI à faire progresser le domaine de la reconnaissance vocale et du traitement du langage.

Le modèle a été développé à partir d’un vaste ensemble de 680 000 heures de données supervisées, dont une grande partie provient de sources non anglophones. Ce processus de préparation rigoureux souligne l’engagement d’OpenAI à créer un outil de reconnaissance vocale robuste et polyvalent.

Technologies connexes : L’API audio

OpenAI a également introduit une API de synthèse vocale, l’API audio, qui complète Whisper large-v3. Elle propose six voix prédéfinies et deux variantes de modèles d’IA, prêts à révolutionner l’interaction de l’utilisateur avec les applications par le biais d’une parole à consonance naturelle. Dès aujourd’hui, ce service est disponible à des tarifs compétitifs et vise à rendre les interactions numériques plus naturelles et plus accessibles.

Toutefois, l’API audio d’OpenAI ne prend actuellement pas en charge la modulation du ton des émotions dans ses résultats audio. La compagnie reconnaît que les caractéristiques du texte, telles que les majuscules et la grammaire, peuvent influencer la production vocale, mais admet que l’efficacité de ces facteurs n’a pas été uniforme lors des tests internes.

Perspectives d’avenir : L’impact de Whisper et de l’API audio

Le Whisper large-v3 et l’API audio d’OpenAI ne sont pas seulement des avancées technologiques ; ils représentent un changement de paradigme dans la manière dont nous interagissons avec les systèmes numériques. En rendant ces technologies plus accessibles et plus conviviales, OpenAI établit de nouvelles normes en matière de reconnaissance et de synthèse vocales, ouvrant la voie à des expériences numériques plus intuitives et plus engageantes.

En conclusion, les derniers développements d’OpenAI en matière de technologie ASR et de synthèse vocale offrent un potentiel énorme pour un large éventail d’applications, allant de l’amélioration de l’accessibilité à la transformation de la façon dont nous apprenons et interagissons avec les systèmes d’intelligence artificielle. L’avenir de la technologie vocale, alimenté par les innovations d’OpenAI, promet d’être plus inclusif, plus efficace et plus centré sur l’utilisateur.