Les ordinateurs peuvent déjà nous battre aux échecs, ils lisent nos textes et ont commencé à écrire pour nous. Nous pouvions nous douter que l’intelligence artificielle serait capable de faire de même avec les conversations et la musique!
La division de R&D de Google vient de présenter AudioLM, un outil permettant de générer du son de haute qualité qui demeure cohérent sur la longueur Pour ce faire, il part d’un enregistrement de quelques secondes seulement, et est capable de le prolonger de manière naturelle et cohérente. Ce qui est remarquable, c’est qu’il y parvient sans avoir été entraîné avec des transcriptions ou des annotations antérieures, même si le discours généré est syntaxiquement et sémantiquement plausible. De plus, Audio LM maintient l’identité et la prosodie du locuteur (la musique du langage, sa structure temporelle, rythmique et mélodique) à tel point que l’auditeur est incapable de discerner quelle partie de l’audio est originale et quelle partie a été générée par une intelligence artificielle.
Les exemples de cette intelligence artificielle sont frappants. Non seulement Audio LM est capable de reproduire l’articulation, lle timbre et l’intensité, mais ce modèle de langage est également capable de saisir le son de la respiration de l’orateur et de former des phrases qui ont su sens. S’il ne part pas d’un son de studio, mais d’un son avec un bruit de fond, AudioLM le reproduit pour lui donner une continuité.
Une intelligence artificielle formée à la sémantique et à l’acoustique
Comment cela fonctionne t-il ? La génération d’audio ou de musique n’est pas nouvelle. Mais la méthode imaginée par les chercheurs de Google pour résoudre le problème est la suivante. De chaque audio, des marqueurs sémantiques sont extraits pour encoder une structure de haut niveau (phonèmes, lexique, sémantique…), et des marqueurs acoustiques (identité du locuteur, qualité de l’enregistrement, bruit de fond…). Avec ces données déjà traitées et compréhensibles par l’intelligence artificielle, AudioLM commence son travail en établissant une hiérarchie dans laquelle il prédit d’abord les marqueurs sémantiques, qui sont ensuite utilisés comme conditions pour prédire les marqueurs acoustiques. Ces derniers sont ensuite réutilisés à la fin pour convertir les bits en quelque chose que les humains peuvent entendre.
Cette séparation sémantique de l’acoustique, et de sa hiérarchie, n’est pas seulement une pratique bénéfique pour l’entraînement des modèles de langage pour générer la parole. Selon les chercheurs, elle est également plus efficace pour poursuivre les compositions pour piano, comme ils le montrent sur leur site web. Ce modèle est bien meilleur que les modèles qui ne sont entraînés qu’à l’aide de marqueurs acoustiques.
Le plus important dans l’intelligence artificielle d’AudioLM n’est pas qu’elle soit capable de poursuivre des discours et des mélodies, mais qu’elle puisse tout faire en même temps. Il s’agit donc d’un modèle de langage unique qui peut être utilisé pour convertir du texte en parole – un robot pourrait lire des livres entiers – ou pour rendre n’importe quel appareil capable de communiquer avec des personnes en utilisant une voix familière. Cette idée a déjà été explorée par Amazon, qui a envisagé d’utiliser la voix de proches dans ses enceintes Alexa.
Des dangers potentiels?
Des logiciels comme Dalle-2 et Stable Diffusion existent déjà: ce sont des outils exceptionnels qui permettent d’esquisser des idées ou de générer des ressources créatives en quelques secondes. L’audio synthétique peut avoir beaucoup d’impact, et on peut imaginer que la voix d’un annonceur soit utilisée à la demande par diverses entreprises. Des films pourraient être doublés avec les voix d’acteurs disparus. Le lecteur se demande peut-être si cette possibilité, bien que passionnante, n’est pas dangereuse. Tout enregistrement audio pourrait être manipulé à des fins politiques, juridiques ou judiciaires. Mais selon Google, si les humains peuvent avoir du mal à détecter ce qui provient d’une intelligence artificielle, un ordinateur peut détecter si l’audio est organique ou non. En d’autres termes, non seulement la machine peut nous remplacer, mais une autre machine sera indispensable pour évaluer son travail.
Pour le moment, AudioLM n’est pas ouvert au public, il s’agit uniquement d’un modèle de langage qui peut être intégré dans différents projets. Mais cette démonstration, ainsi que le programme musical Jukebox d’OpenAI, montre à quel point nous entrons rapidement dans un nouveau monde où personne ne saura, ou ne se souciera, de savoir si cette photo a été prise par une personne ou s’il y a une personne ou une voix off générée artificiellement à l’autre bout du fil en temps réel.