Les Grands Modèles de Langage  (LLM) ont été sous les feux de la rampe depuis quelques mois. Il s’agit en effet d’une des avancées les plus puissantes dans le domaine de l’intelligence artificielle. Ces modèles transforment la façon dont les humains interagissent avec les machines. Alors que chaque secteur adopte ces modèles, ils sont le meilleur exemple de la façon dont l’IA va être omniprésente dans nos vies. Les LLM excellent dans la production de texte pour des tâches impliquant des interactions complexes et la recherche de connaissances, le meilleur exemple étant le célèbre chatbot développé par OpenAI, ChatGPT, basé sur l’architecture Transformer de GPT 3.5 et GPT 4. Non seulement dans la génération de texte, mais des modèles comme CLIP (Contrastive Language-Image Pretraining) ont également été développés pour la production d’images, permettant la création de texte en fonction du contenu de l’image.

Pour progresser dans la génération et la compréhension audio, une équipe de chercheurs de Google a introduit AudioPaLM, un grand modèle de langage capable de s’attaquer aux tâches de compréhension et de génération de la parole. AudioPaLM combine les avantages de deux modèles existants, à savoir le modèle PaLM-2 et le modèle AudioLM, afin de produire une architecture multimodale unifiée capable de traiter et de produire à la fois du texte et de la parole. Cela permet à AudioPaLM de gérer une variété d’applications, allant de la reconnaissance vocale à la conversion voix-texte.

Alors que AudioLM est excellent pour maintenir des informations paralinguistiques telles que l’identité de l’orateur et le ton, PaLM-2, qui est un modèle de langage basé sur le texte, se spécialise dans la connaissance linguistique spécifique au texte. En combinant ces deux modèles, AudioPaLM profite de l’expertise linguistique de PaLM-2 et de la préservation des informations paralinguistiques d’AudioLM, ce qui permet une compréhension et une création plus approfondies à la fois du texte et de la parole.

La puissance du traitement multimodal du langage : AudioPaLM

AudioPaLM représente une avancée majeure dans le traitement du langage car il combine les forces des modèles de langage basés sur le texte et des modèles audio. Ses applications couvrent un large éventail, notamment la reconnaissance vocale et la traduction vocale. En exploitant l’expertise d’AudioLM, AudioPaLM excelle à capturer les indices non verbaux tels que l’identification de l’orateur et l’intonation. Parallèlement, il intègre les connaissances linguistiques intégrées dans les modèles de langage basés sur le texte tels que PaLM-2. Cette approche multimodale permet à AudioPaLM de gérer diverses tâches impliquant à la fois la parole et le texte.

Au cœur d’AudioPaLM se trouve un puissant modèle de transformation à grande échelle. En s’appuyant sur un modèle de langage basé sur le texte existant,  En entraînant un modèle de décodage unique capable de gérer un mélange de tâches de parole et de texte, AudioPaLM consolide des modèles traditionnellement séparés en une architecture unifiée. Cette approche permet au modèle d’exceller dans des tâches telles que la reconnaissance vocale, la synthèse texte-parole et la traduction parole-parole, offrant une solution polyvalente pour le traitement multimodal du langage.

Des performances impressionnantes et une grande polyvalence d’AudioPaLM

AudioPaLM a démontré des performances exceptionnelles dans les tests de traduction automatique de la parole, montrant sa capacité à fournir des traductions précises et fiables. De plus, il donne des résultats de qualité dans les tâches de reconnaissance vocale, convertissant avec précision la langue parlée en texte. AudioPaLM peut générer des transcriptions dans la langue d’origine ou fournir des traductions, ainsi que générer de la parole en fonction du texte saisi. Cette polyvalence positionne AudioPaLM comme un outil puissant pour combler le fossé entre le texte et la voix.

Les innovations continues de Google dans la génération d’audio

AudioPaLM n’est pas la première incursion de Google dans la génération audio. Plus tôt cette année, Google a présenté MusicLM, un modèle génératif de musique haute fidélité qui crée de la musique en fonction de descriptions textuelles. MusicLM, construit sur la base d’AudioLM, utilise une approche séquentielle hiérarchique pour produire de la musique de haute qualité. De plus, Google a introduit MusicCaps, un ensemble de données sélectionné conçu pour évaluer la génération de musique à partir de texte.

De la concurrence dans le monde de la génération d’audio

Les concurrents de Google font également d’importants progrès dans le domaine de la génération audio. Microsoft a récemment lancé Pengi, un modèle de langage audio qui exploite le transfert d’apprentissage pour exceller à la fois dans les tâches audio et textuelles. En intégrant des entrées audio et texte, Pengi peut générer des sorties textuelles libres sans ajustement supplémentaire. De même, Meta, dirigé par Mark Zuckerberg, a introduit MusicGen, un modèle basé sur Transformer qui crée de la musique alignée sur des mélodies existantes. Voicebox de Meta, un modèle IA génératif multilingue, démontre sa capacité à effectuer diverses tâches de génération de parole grâce à l’apprentissage en contexte.

La présentation d’AudioPaLM par Google marque une nouvelle étape dans l’avancement des modèles de langage. En intégrant de manière transparente le texte et la voix, AudioPaLM présente un outil puissant pour différentes applications, de la reconnaissance vocale à la traduction. Alors que l’IA générative continue d’évoluer, ces modèles de langage multimodaux offrent des capacités sans précédent, nous rapprochant d’un avenir où le texte et la voix interagissent de manière transparente.