Un contenu pertinent et utile pour vous tenir au courant de tous les changements survenus sur le marché et dans le secteur du speech to text.

En ce début 2024, LenseUp vous propose une série de nouveaux services avancés dans le domaine de la production audiovisuelle multilingue. Avec une équipe composée de professionnels natifs et de traducteurs experts, LenseUp se positionne comme votre partenaire  pour des traductions audio et vidéo , enrichies par une technologie de pointe. Lire la suite

Dans un monde toujours plus centré sur la communication globale, la capacité de franchir les barrières linguistiques est plus cruciale que jamais. Meta, figure de proue dans le secteur de l’intelligence artificielle, a récemment fait part d’une percée significative dans le domaine de la traduction vocale. Cette innovation promet de transformer radicalement notre manière de communiquer à travers les différentes langues. Lire la suite

OpenAI dévoile Whisper 3 : le modèle ASR Open Source de nouvelle génération

Lors de la récente journée des développeurs d’OpenAI, Whisper large-v3 a été dévoilé. Il s’agit d’une mise à jour du modèle de reconnaissance automatique de la parole (ASR) open-source. Ce développement marque une avancée significative dans la technologie de la reconnaissance vocale, OpenAI prévoyant d’étendre sa diffusion par le biais d’une API accessible aux utilisateurs dans un avenir proche. Lire la suite

Les Grands Modèles de Langage  (LLM) ont été sous les feux de la rampe depuis quelques mois. Il s’agit en effet d’une des avancées les plus puissantes dans le domaine de l’intelligence artificielle. Ces modèles transforment la façon dont les humains interagissent avec les machines. Alors que chaque secteur adopte ces modèles, ils sont le meilleur exemple de la façon dont l’IA va être omniprésente dans nos vies. Les LLM excellent dans la production de texte pour des tâches impliquant des interactions complexes et la recherche de connaissances, le meilleur exemple étant le célèbre chatbot développé par OpenAI, ChatGPT, basé sur l’architecture Transformer de GPT 3.5 et GPT 4. Non seulement dans la génération de texte, mais des modèles comme CLIP (Contrastive Language-Image Pretraining) ont également été développés pour la production d’images, permettant la création de texte en fonction du contenu de l’image. Lire la suite

Le monde de l’IA a radicalement transformé la vie quotidienne des individus. Des fonctionnalités telles que la reconnaissance vocale ont rendu relativement plus simple l’exécution de tâches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend très efficace. Avec le développement de l’IA, les applications de reconnaissance vocale se sont rapidement développées. Les assistants virtuels comme Google, Alexa et Siri utilisent un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. De même, des fonctions comme la synthèse vocale, la synthèse de la parole en texte et la synthèse de texte en texte ont également gagné en popularité avec des applications variées. Lire la suite

Les ordinateurs peuvent déjà nous battre aux échecs, ils lisent nos textes et ont commencé à écrire pour nous. Nous pouvions nous douter que l’intelligence artificielle serait capable de faire de même avec les conversations et la musique!

La division de R&D de Google vient de présenter AudioLM, un outil permettant de générer du son de haute qualité qui demeure cohérent sur la longueur Pour ce faire, il part d’un enregistrement de quelques secondes seulement, et est capable de le prolonger de manière naturelle et cohérente. Ce qui est remarquable, c’est qu’il y parvient sans avoir été entraîné avec des transcriptions ou des annotations antérieures, même si le discours généré est syntaxiquement et sémantiquement plausible. De plus, Audio LM maintient l’identité et la prosodie du locuteur (la musique du langage, sa structure temporelle, rythmique et mélodique) à tel point que l’auditeur est incapable de discerner quelle partie de l’audio est originale et quelle partie a été générée par une intelligence artificielle.

Les exemples de cette intelligence artificielle sont frappants. Non seulement Audio LM est capable de reproduire l’articulation, lle timbre et l’intensité, mais ce modèle de langage est également capable de saisir le son de la respiration de l’orateur et de former des phrases qui ont su sens. S’il ne part pas d’un son de studio, mais d’un son avec un bruit de fond, AudioLM le reproduit pour lui donner une continuité. Lire la suite

Créer un podcast intéressant est une chose, mais le diffuser massivement en est une autre. Pourtant, un podcast diffusé à grande échelle peut ouvrir de nombreuses portes à votre entreprise, dont certaines peuvent être très bénéfiques à long terme. Nous verrons ici comment la transcription d’un épisode de podcast peut donner des ailes à la visibilité de votre entreprise et booster votre SEO.

En 2021, 79 % de la population adulte américaine connaissait le podcasting et environ 120 millions de personnes écoutaient régulièrement des podcasts. Les États-Unis sont en tête du classement mondial en matière d’écoute de podcasts, toutes catégories confondues.

La Suède se classe deuxième en termes de pénétration des podcasts, avec 34,6 % des internautes qui prévoient d’écouter des podcasts cette année. En Norvège, en Australie, au Canada et en Espagne, l’adoption du podcasting est massive. En raison de l’importance de leur population, la Chine et le Brésil se classeront aux deuxième et troisième rangs des auditeurs de podcasts (85,6 millions et 39,2 millions de personnes, respectivement).
Lire la suite

OpenAI a présenté un nouveau système de reconnaissance automatique de la parole (ASR) appelé Whisper sous la forme d’un kit logiciel open-source sur GitHub. L’IA de Whisper peut transcrire des conversations en plusieurs langues et les traduire en anglais, et les équipes de GPT-3 affirment que l’entraînement de Whisper permet de mieux distinguer les voix dans des environnements bruyants et de comprendre les accents lourds et le langage technique.

La reconnaissance automatique de la parole, souvent appelée ASR, transforme le langage parlé en texte. Il s’agit d’un logiciel de conversion de la parole en texte qui convertit automatiquement votre voix en langage écrit.

Cette technologie a de nombreuses applications, notamment les logiciels de dictée et de messagerie vocale visuelle. Lire la suite

L’intelligence artificielle apporte une précision proche de celle des humains aux applications de reconnaissance automatique de la parole.

Les récentes avancées dans la recherche en matière de deep learning ont amélioré la technologie de reconnaissance automatique de la parole (ASR) de manière si significative qui se rapproche aujourd’hui de la précision humaine. Cela ouvre la voie à de nombreuses autres possibilités et fonctionnalités passionnantes pour l’utilisation de cette technologie. Lire la suite