Les Grands Modèles de Langage (LLM) ont été sous les feux de la rampe depuis quelques mois. Il s’agit en effet d’une des avancées les plus puissantes dans le domaine de l’intelligence artificielle. Ces modèles transforment la façon dont les humains interagissent avec les machines. Alors que chaque secteur adopte ces modèles, ils sont le meilleur exemple de la façon dont l’IA va être omniprésente dans nos vies. Les LLM excellent dans la production de texte pour des tâches impliquant des interactions complexes et la recherche de connaissances, le meilleur exemple étant le célèbre chatbot développé par OpenAI, ChatGPT, basé sur l’architecture Transformer de GPT 3.5 et GPT 4. Non seulement dans la génération de texte, mais des modèles comme CLIP (Contrastive Language-Image Pretraining) ont également été développés pour la production d’images, permettant la création de texte en fonction du contenu de l’image. Lire la suite
Le monde de l’IA a radicalement transformé la vie quotidienne des individus. Des fonctionnalités telles que la reconnaissance vocale ont rendu relativement plus simple l’exécution de tâches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend très efficace. Avec le développement de l’IA, les applications de reconnaissance vocale se sont rapidement développées. Les assistants virtuels comme Google, Alexa et Siri utilisent un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. De même, des fonctions comme la synthèse vocale, la synthèse de la parole en texte et la synthèse de texte en texte ont également gagné en popularité avec des applications variées. Lire la suite
Les ordinateurs peuvent déjà nous battre aux échecs, ils lisent nos textes et ont commencé à écrire pour nous. Nous pouvions nous douter que l’intelligence artificielle serait capable de faire de même avec les conversations et la musique!
La division de R&D de Google vient de présenter AudioLM, un outil permettant de générer du son de haute qualité qui demeure cohérent sur la longueur Pour ce faire, il part d’un enregistrement de quelques secondes seulement, et est capable de le prolonger de manière naturelle et cohérente. Ce qui est remarquable, c’est qu’il y parvient sans avoir été entraîné avec des transcriptions ou des annotations antérieures, même si le discours généré est syntaxiquement et sémantiquement plausible. De plus, Audio LM maintient l’identité et la prosodie du locuteur (la musique du langage, sa structure temporelle, rythmique et mélodique) à tel point que l’auditeur est incapable de discerner quelle partie de l’audio est originale et quelle partie a été générée par une intelligence artificielle.
Les exemples de cette intelligence artificielle sont frappants. Non seulement Audio LM est capable de reproduire l’articulation, lle timbre et l’intensité, mais ce modèle de langage est également capable de saisir le son de la respiration de l’orateur et de former des phrases qui ont su sens. S’il ne part pas d’un son de studio, mais d’un son avec un bruit de fond, AudioLM le reproduit pour lui donner une continuité. Lire la suite
LenseUp
LenseUp propose des solutions vidéo/audio multilingues pour l’international. Une combinaison puissante d’expertise humaine et d’intelligence artificielle
Contact
Tel 01 83 64 07 36