Les ordinateurs peuvent déjà nous battre aux échecs, ils lisent nos textes et ont commencé à écrire pour nous. Nous pouvions nous douter que l’intelligence artificielle serait capable de faire de même avec les conversations et la musique!

La division de R&D de Google vient de présenter AudioLM, un outil permettant de générer du son de haute qualité qui demeure cohérent sur la longueur Pour ce faire, il part d’un enregistrement de quelques secondes seulement, et est capable de le prolonger de manière naturelle et cohérente. Ce qui est remarquable, c’est qu’il y parvient sans avoir été entraîné avec des transcriptions ou des annotations antérieures, même si le discours généré est syntaxiquement et sémantiquement plausible. De plus, Audio LM maintient l’identité et la prosodie du locuteur (la musique du langage, sa structure temporelle, rythmique et mélodique) à tel point que l’auditeur est incapable de discerner quelle partie de l’audio est originale et quelle partie a été générée par une intelligence artificielle.

Les exemples de cette intelligence artificielle sont frappants. Non seulement Audio LM est capable de reproduire l’articulation, lle timbre et l’intensité, mais ce modèle de langage est également capable de saisir le son de la respiration de l’orateur et de former des phrases qui ont su sens. S’il ne part pas d’un son de studio, mais d’un son avec un bruit de fond, AudioLM le reproduit pour lui donner une continuité. Lire la suite