{"id":14377,"date":"2023-11-10T07:19:19","date_gmt":"2023-11-10T06:19:19","guid":{"rendered":"https:\/\/www.lenseup.com\/openais-whisper-3-a-game-changer-in-speech-recognition\/"},"modified":"2023-12-27T17:51:58","modified_gmt":"2023-12-27T16:51:58","slug":"reconnaissance-vocale-et-speech-to-text-whisper-3","status":"publish","type":"post","link":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/","title":{"rendered":"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0"},"content":{"rendered":"<h2>OpenAI d\u00e9voile Whisper 3 : le mod\u00e8le ASR Open Source de nouvelle g\u00e9n\u00e9ration<\/h2>\n<p>Lors de la r\u00e9cente journ\u00e9e des d\u00e9veloppeurs d&rsquo;OpenAI, Whisper large-v3 a \u00e9t\u00e9 d\u00e9voil\u00e9. Il s&rsquo;agit d&rsquo;une mise \u00e0 jour du mod\u00e8le de reconnaissance automatique de la parole (ASR) open-source. Ce d\u00e9veloppement marque une avanc\u00e9e significative dans la technologie de la reconnaissance vocale, OpenAI pr\u00e9voyant d&rsquo;\u00e9tendre sa diffusion par le biais d&rsquo;une API accessible aux utilisateurs dans un avenir proche.<!--more--><\/p>\n<h2>Performances accrues en anglais et capacit\u00e9s multilingues<\/h2>\n<p>Whisper 3 excelle dans les applications en langue anglaise, en particulier avec ses mod\u00e8les tiny.en et base.en, atteignant des taux de pr\u00e9cision impressionnants. Cependant, les performances du mod\u00e8le varient en fonction des langues, un d\u00e9fi qu&rsquo;OpenAI continue de relever.<\/p>\n<p>Initialement centr\u00e9 sur l&rsquo;anglais, le mod\u00e8le a \u00e9volu\u00e9 depuis sa sortie initiale en septembre de l&rsquo;ann\u00e9e derni\u00e8re. Le mois de d\u00e9cembre a vu l&rsquo;introduction de la version 2, qui \u00e9largit son champ d&rsquo;application linguistique pour inclure plusieurs langues, bien que ces langues sp\u00e9cifiques n&rsquo;aient pas \u00e9t\u00e9 explicitement nomm\u00e9es.<\/p>\n<h2>Un outil pour des applications diverses<\/h2>\n<p>Disponible sur GitHub sous une licence permissive, Whisper large-v3 est r\u00e9put\u00e9 pour sa capacit\u00e9 \u00e0 transcrire des contenus vari\u00e9s. Ses fonctionnalit\u00e9s exceptionnelles et sa facilit\u00e9 d&rsquo;utilisation lui ont valu le titre de meilleur outil de transcription actuellement disponible. Il se distingue notamment par sa section d&rsquo;horodatage unique, particuli\u00e8rement utile pour la cr\u00e9ation de sous-titres pour des plateformes telles que YouTube.<\/p>\n<p>Le mod\u00e8le traite l&rsquo;audio en le divisant en segments de 30 secondes, qui sont ensuite d\u00e9cod\u00e9s pour pr\u00e9dire les sous-titres textuels correspondants. En outre, il comporte une fonction d&rsquo;identification de la langue, ce qui lui permet de transcrire et de traduire en anglais des discours multilingues.<\/p>\n<h2>Int\u00e9gration avec ChatGPT et Focus sur la recherche<\/h2>\n<p>Bien qu&rsquo;il ait \u00e9t\u00e9 initialement pr\u00e9vu d&rsquo;int\u00e9grer ChatGPT pour une interaction directe de la parole au texte, OpenAI a choisi de mettre le mod\u00e8le \u00e0 la disposition du public, en s&rsquo;adressant principalement \u00e0 la communaut\u00e9 des chercheurs. Cette d\u00e9cision souligne l&rsquo;engagement d&rsquo;OpenAI \u00e0 faire progresser le domaine de la reconnaissance vocale et du traitement du langage.<\/p>\n<p>Le mod\u00e8le a \u00e9t\u00e9 d\u00e9velopp\u00e9 \u00e0 partir d&rsquo;un vaste ensemble de 680 000 heures de donn\u00e9es supervis\u00e9es, dont une grande partie provient de sources non anglophones. Ce processus de pr\u00e9paration rigoureux souligne l&rsquo;engagement d&rsquo;OpenAI \u00e0 cr\u00e9er un outil de reconnaissance vocale robuste et polyvalent.<\/p>\n<h2>Technologies connexes : L&rsquo;API audio<\/h2>\n<p>OpenAI a \u00e9galement introduit une API de synth\u00e8se vocale, l&rsquo;API audio, qui compl\u00e8te Whisper large-v3. Elle propose six voix pr\u00e9d\u00e9finies et deux variantes de mod\u00e8les d&rsquo;IA, pr\u00eats \u00e0 r\u00e9volutionner l&rsquo;interaction de l&rsquo;utilisateur avec les applications par le biais d&rsquo;une parole \u00e0 consonance naturelle. D\u00e8s aujourd&rsquo;hui, ce service est disponible \u00e0 des tarifs comp\u00e9titifs et vise \u00e0 rendre les interactions num\u00e9riques plus naturelles et plus accessibles.<\/p>\n<p>Toutefois, l&rsquo;API audio d&rsquo;OpenAI ne prend actuellement pas en charge la modulation du ton des \u00e9motions dans ses r\u00e9sultats audio. La compagnie reconna\u00eet que les caract\u00e9ristiques du texte, telles que les majuscules et la grammaire, peuvent influencer la production vocale, mais admet que l&rsquo;efficacit\u00e9 de ces facteurs n&rsquo;a pas \u00e9t\u00e9 uniforme lors des tests internes.<\/p>\n<h2>Perspectives d&rsquo;avenir : L&rsquo;impact de Whisper et de l&rsquo;API audio<\/h2>\n<p>Le Whisper large-v3 et l&rsquo;API audio d&rsquo;OpenAI ne sont pas seulement des avanc\u00e9es technologiques ; ils repr\u00e9sentent un changement de paradigme dans la mani\u00e8re dont nous interagissons avec les syst\u00e8mes num\u00e9riques. En rendant ces technologies plus accessibles et plus conviviales, OpenAI \u00e9tablit de nouvelles normes en mati\u00e8re de reconnaissance et de synth\u00e8se vocales, ouvrant la voie \u00e0 des exp\u00e9riences num\u00e9riques plus intuitives et plus engageantes.<\/p>\n<p>En conclusion, les derniers d\u00e9veloppements d&rsquo;OpenAI en mati\u00e8re de technologie ASR et de synth\u00e8se vocale offrent un potentiel \u00e9norme pour un large \u00e9ventail d&rsquo;applications, allant de l&rsquo;am\u00e9lioration de l&rsquo;accessibilit\u00e9 \u00e0 la transformation de la fa\u00e7on dont nous apprenons et interagissons avec les syst\u00e8mes d&rsquo;intelligence artificielle. L&rsquo;avenir de la technologie vocale, aliment\u00e9 par les innovations d&rsquo;OpenAI, promet d&rsquo;\u00eatre plus inclusif, plus efficace et plus centr\u00e9 sur l&rsquo;utilisateur.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI d\u00e9voile Whisper 3 : le mod\u00e8le ASR Open Source de nouvelle g\u00e9n\u00e9ration Lors de la r\u00e9cente journ\u00e9e des d\u00e9veloppeurs d&rsquo;OpenAI, Whisper large-v3 a \u00e9t\u00e9 d\u00e9voil\u00e9. Il s&rsquo;agit d&rsquo;une mise \u00e0 jour du mod\u00e8le de reconnaissance automatique de la parole (ASR) open-source. Ce d\u00e9veloppement marque une avanc\u00e9e significative dans la technologie de la reconnaissance vocale, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":14370,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[69],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v23.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0<\/title>\n<meta name=\"description\" content=\"Le r\u00e9cent Developer Day d&#039;OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0\" \/>\n<meta property=\"og:description\" content=\"Le r\u00e9cent Developer Day d&#039;OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/\" \/>\n<meta property=\"og:site_name\" content=\"LenseUp, solutions vid\u00e9o et audio multilingues. Audioguides, audiobooks, traductions audio et video\" \/>\n<meta property=\"article:published_time\" content=\"2023-11-10T06:19:19+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-12-27T16:51:58+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"900\" \/>\n\t<meta property=\"og:image:height\" content=\"514\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"LenseUp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"LenseUp\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/\",\"url\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/\",\"name\":\"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0\",\"isPartOf\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg\",\"datePublished\":\"2023-11-10T06:19:19+00:00\",\"dateModified\":\"2023-12-27T16:51:58+00:00\",\"author\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337\"},\"description\":\"Le r\u00e9cent Developer Day d'OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.\",\"breadcrumb\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage\",\"url\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg\",\"contentUrl\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg\",\"width\":900,\"height\":514},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\/\/www.lenseup.com\/fr\/7440-2\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#website\",\"url\":\"https:\/\/www.lenseup.com\/fr\/\",\"name\":\"LenseUp, multilingual audio and video solutions\",\"description\":\"Traductions et contenus audio \/ video dans 30 langues.\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.lenseup.com\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337\",\"name\":\"LenseUp\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g\",\"caption\":\"LenseUp\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0","description":"Le r\u00e9cent Developer Day d'OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/","og_locale":"fr_FR","og_type":"article","og_title":"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0","og_description":"Le r\u00e9cent Developer Day d'OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.","og_url":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/","og_site_name":"LenseUp, solutions vid\u00e9o et audio multilingues. Audioguides, audiobooks, traductions audio et video","article_published_time":"2023-11-10T06:19:19+00:00","article_modified_time":"2023-12-27T16:51:58+00:00","og_image":[{"width":900,"height":514,"url":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg","type":"image\/jpeg"}],"author":"LenseUp","twitter_card":"summary_large_image","twitter_misc":{"\u00c9crit par":"LenseUp","Dur\u00e9e de lecture estim\u00e9e":"4 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/","url":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/","name":"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0","isPartOf":{"@id":"https:\/\/www.lenseup.com\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage"},"image":{"@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage"},"thumbnailUrl":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg","datePublished":"2023-11-10T06:19:19+00:00","dateModified":"2023-12-27T16:51:58+00:00","author":{"@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337"},"description":"Le r\u00e9cent Developer Day d'OpenAI a vu le d\u00e9voilement de Whisper large-v3, une mise \u00e0 jour de pointe du mod\u00e8le open-source de reconnaissance automatique de la parole (ASR). En savoir plus.","breadcrumb":{"@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#primaryimage","url":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg","contentUrl":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/11\/dall-3-e.jpg","width":900,"height":514},{"@type":"BreadcrumbList","@id":"https:\/\/www.lenseup.com\/fr\/reconnaissance-vocale-et-speech-to-text-whisper-3\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/www.lenseup.com\/fr\/7440-2\/"},{"@type":"ListItem","position":2,"name":"Reconnaissance vocale et speech-to-text, voix de synth\u00e8se: Whisper 3 est l\u00e0"}]},{"@type":"WebSite","@id":"https:\/\/www.lenseup.com\/fr\/#website","url":"https:\/\/www.lenseup.com\/fr\/","name":"LenseUp, multilingual audio and video solutions","description":"Traductions et contenus audio \/ video dans 30 langues.","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.lenseup.com\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Person","@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337","name":"LenseUp","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g","caption":"LenseUp"}}]}},"_links":{"self":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/14377"}],"collection":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/comments?post=14377"}],"version-history":[{"count":4,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/14377\/revisions"}],"predecessor-version":[{"id":14378,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/14377\/revisions\/14378"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/media\/14370"}],"wp:attachment":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/media?parent=14377"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/categories?post=14377"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/tags?post=14377"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}