Le monde de l’IA a radicalement transformé la vie quotidienne des individus. Des fonctionnalités telles que la reconnaissance vocale ont rendu relativement plus simple l’exécution de tâches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend très efficace. Avec le développement de l’IA, les applications de reconnaissance vocale se sont rapidement développées. Les assistants virtuels comme Google, Alexa et Siri utilisent un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. De même, des fonctions comme la synthèse vocale, la synthèse de la parole en texte et la synthèse de texte en texte ont également gagné en popularité avec des applications variées. Lire la suite

Les ordinateurs peuvent déjà nous battre aux échecs, ils lisent nos textes et ont commencé à écrire pour nous. Nous pouvions nous douter que l’intelligence artificielle serait capable de faire de même avec les conversations et la musique!

La division de R&D de Google vient de présenter AudioLM, un outil permettant de générer du son de haute qualité qui demeure cohérent sur la longueur Pour ce faire, il part d’un enregistrement de quelques secondes seulement, et est capable de le prolonger de manière naturelle et cohérente. Ce qui est remarquable, c’est qu’il y parvient sans avoir été entraîné avec des transcriptions ou des annotations antérieures, même si le discours généré est syntaxiquement et sémantiquement plausible. De plus, Audio LM maintient l’identité et la prosodie du locuteur (la musique du langage, sa structure temporelle, rythmique et mélodique) à tel point que l’auditeur est incapable de discerner quelle partie de l’audio est originale et quelle partie a été générée par une intelligence artificielle.

Les exemples de cette intelligence artificielle sont frappants. Non seulement Audio LM est capable de reproduire l’articulation, lle timbre et l’intensité, mais ce modèle de langage est également capable de saisir le son de la respiration de l’orateur et de former des phrases qui ont su sens. S’il ne part pas d’un son de studio, mais d’un son avec un bruit de fond, AudioLM le reproduit pour lui donner une continuité. Lire la suite