{"id":10134,"date":"2023-02-24T17:06:30","date_gmt":"2023-02-24T16:06:30","guid":{"rendered":"https:\/\/www.lenseup.com\/?p=10134"},"modified":"2023-12-27T17:52:40","modified_gmt":"2023-12-27T16:52:40","slug":"text-to-speech-tts-et-synthese-vocale-3-approches-innovantes","status":"publish","type":"post","link":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/","title":{"rendered":"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes"},"content":{"rendered":"<p>Le monde de l&rsquo;IA a radicalement transform\u00e9 la vie quotidienne des individus. Des fonctionnalit\u00e9s telles que la reconnaissance vocale ont rendu relativement plus simple l&rsquo;ex\u00e9cution de t\u00e2ches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend tr\u00e8s efficace. Avec le d\u00e9veloppement de l&rsquo;IA, les applications de reconnaissance vocale se sont rapidement d\u00e9velopp\u00e9es. Les assistants virtuels comme Google, Alexa et Siri utilisent un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. De m\u00eame, des fonctions comme la synth\u00e8se vocale, la synth\u00e8se de la parole en texte et la synth\u00e8se de texte en texte ont \u00e9galement gagn\u00e9 en popularit\u00e9 avec des applications vari\u00e9es.<!--more--><\/p>\n<p>La synth\u00e8se vocale est essentielle \u00e0 l&rsquo;intelligence artificielle (IA), notamment pour les robots conversationnels. Les d\u00e9veloppements r\u00e9cents en mati\u00e8re d&rsquo;apprentissage profond ont permis d&rsquo;am\u00e9liorer de mani\u00e8re significative la qualit\u00e9 de la parole synth\u00e9tis\u00e9e produite par les syst\u00e8mes de synth\u00e8se vocale (TTS) bas\u00e9s sur les r\u00e9seaux neuronaux. Les \u00eatres humains maintiennent des conversation avec diverses prosodies, qui expriment des informations paralinguistiques, telles que des \u00e9motions subtiles.<\/p>\n<p>Ces conversations de notre quotidien sont utilis\u00e9es pour entrainer des syst\u00e8mes efficacement et ainsi obtenir des \u00a0voix de synth\u00e8se proche de la qualit\u00e9 humaine . Voici diff\u00e9rentes approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s fulgurants pour les mois \u00e0 \u00a0venir.<\/p>\n<h2>TTS quantifi\u00e9 par vecteur multi-codebook<\/h2>\n<p>Des chercheurs de la CMU ont d\u00e9voil\u00e9 un syst\u00e8me d<a href=\"https:\/\/b04901014.github.io\/MQTTS\/\">&lsquo;IA pour l&rsquo;apprentissage de la synth\u00e8se vocale de qualit\u00e9 humaine \u00e0 partir de diff\u00e9rents types de conversations<\/a>. Dans leur \u00e9tude, les chercheurs ont examin\u00e9 l&rsquo;utilisation de la parole du monde r\u00e9el recueillie \u00e0 la fois sur YouTube et dans des podcasts. Dans ce cas, ils ont simplifi\u00e9 l&rsquo;environnement en tirant parti d&rsquo;un corpus de paroles d\u00e9j\u00e0 enregistr\u00e9es et en se concentrant sur la synth\u00e8se vocale. Ils pensent ainsi pouvoir \u00eatre capable de reproduire le succ\u00e8s de mod\u00e8les de langage importants comme GPT-3.<\/p>\n<p>Avec peu de ressources, ces syst\u00e8mes peuvent \u00eatre adapt\u00e9s \u00e0 certaines caract\u00e9ristiques du locuteur ou \u00e0 certaines conditions d&rsquo;enregistrement. Dans cette \u00e9tude, les auteurs abordent les nouvelles difficult\u00e9s rencontr\u00e9es lors de l&rsquo;entra\u00eenement des syst\u00e8mes TTS sur la parole du monde r\u00e9el, comme le bruit de fond et la variance prosodique accrue par rapport \u00e0 la lecture de la parole enregistr\u00e9e en situation contr\u00f4l\u00e9e. Ils montrent d&rsquo;abord que les algorithmes autor\u00e9gressifs bas\u00e9s sur le mel-spectrogramme ne peuvent pas fournir un alignement texte-audio pr\u00e9cis pendant l&rsquo;inf\u00e9rence, ce qui conduit \u00e0 une parole brouill\u00e9e. L&rsquo;\u00e9chec de l&rsquo;alignement par inf\u00e9rence peut donc \u00eatre correctement attribu\u00e9 \u00e0 l&rsquo;accumulation d&rsquo;erreurs dans le processus de d\u00e9codage, car ils d\u00e9montrent \u00e9galement que des alignements pr\u00e9cis peuvent encore \u00eatre appris pendant l&rsquo;entra\u00eenement.<\/p>\n<p>Les chercheurs ont d\u00e9couvert que ce probl\u00e8me \u00e9tait r\u00e9solu en substituant des codebooks discrets appris au mel-spectrogramme. Ils expliquent ce ph\u00e9nom\u00e8ne par la r\u00e9sistance sup\u00e9rieure des repr\u00e9sentations discr\u00e8tes au bruit d&rsquo;entr\u00e9e. Cependant, leurs r\u00e9sultats montrent qu&rsquo;un seul codebook entra\u00eene une reconstruction biais\u00e9e pour la parole du monde r\u00e9el, m\u00eame avec des codebooks de plus grande taille. Ils supposent qu&rsquo;il existe trop de mod\u00e8les prosodiques dans la parole spontan\u00e9e pour qu&rsquo;un codebook puisse les g\u00e9rer. Ils utilisent plusieurs codebooks pour cr\u00e9er des architectures particuli\u00e8res pour l&rsquo;\u00e9chantillonnage multi-code et l&rsquo;alignement monotone. Ils utilisent une invite audio de silence pur pendant l&rsquo;inf\u00e9rence pour encourager le mod\u00e8le \u00e0 produire de la parole pure malgr\u00e9 un entra\u00eenement sur un corpus bruyant.<\/p>\n<p>Ils ont introduit cette technologie appel\u00e9e MQTTS (multi-codebook vector quantized TTS).\u00a0 Les chercheurs ont publi\u00e9 leur code source. L&rsquo;impl\u00e9mentation du code est rendue publique sur GitHub.<\/p>\n<h2>Hugging Face Transformers se dote d&rsquo;un nouveau mod\u00e8le de synth\u00e8se vocale avec l&rsquo;ajout de SpeechT5<\/h2>\n<p>Encourag\u00e9s par les performances exceptionnelles de T5 (Text-To-Text Transfer Transformer) dans les mod\u00e8les de traitement du langage naturel pr\u00e9-entra\u00een\u00e9s, les scientifiques ont propos\u00e9 un framework SpeechT5 \u00e0 mod\u00e8le unifi\u00e9 qui explore le pr\u00e9-entra\u00eenement codeur-d\u00e9codeur pour l&rsquo;apprentissage auto-supervis\u00e9 de la repr\u00e9sentation de la parole et du texte. <a href=\"https:\/\/huggingface.co\/spaces\/Matthijs\/speecht5-tts-demo\">SpeechT5 est propos\u00e9 via Hugging Face Transformers<\/a>, une bo\u00eete \u00e0 outils open-source qui fournit des impl\u00e9mentations simples de mod\u00e8les d&rsquo;apprentissage automatique de pointe.<\/p>\n<p>SpeechT5 offre trois diff\u00e9rents types de mod\u00e8les de parole dans une seule et m\u00eame architecture. En utilisant une structure standard d&rsquo;encodeur-d\u00e9codeur, le cadre de mod\u00e8le unifi\u00e9 de SpeechT5 permet l&rsquo;apprentissage de repr\u00e9sentations contextuelles combin\u00e9es pour les donn\u00e9es vocales et textuelles. Ses diff\u00e9rents mod\u00e8les de parole sont :<\/p>\n<ol>\n<li>Text-to-speech : pour cr\u00e9er de l&rsquo;audio \u00e0 partir de texte<\/li>\n<li>Speech-to-text : pour reconna\u00eetre la parole automatiquement.<\/li>\n<li>Speech-to-speech : pour r\u00e9aliser une modification de la parole ou passer d&rsquo;une voix \u00e0 une autre.<\/li>\n<\/ol>\n<p>Le principe fondamental de SpeechT5 est de pr\u00e9-entra\u00eener un mod\u00e8le en utilisant une combinaison de donn\u00e9es de texte \u00e0 parole, de parole \u00e0 texte, de texte \u00e0 texte et de parole \u00e0 parole. De cette mani\u00e8re, le mod\u00e8le apprend simultan\u00e9ment \u00e0 partir de la parole et du texte. Cette m\u00e9thode de pr\u00e9-entra\u00eenement produit un mod\u00e8le avec un seul espace de repr\u00e9sentations cach\u00e9es partag\u00e9 par le texte et l&rsquo;audio.<\/p>\n<p>SpeechT5 est bas\u00e9 sur un mod\u00e8le d&rsquo;encodeur-d\u00e9codeur Transformer standard. Le r\u00e9seau encodeur-d\u00e9codeur simule une transformation s\u00e9quentielle en utilisant des repr\u00e9sentations cach\u00e9es, comme tout autre Transformer. Toutes les t\u00e2ches de SpeechT5 partagent le m\u00eame cadre Transformer.<\/p>\n<p>L&rsquo;ajout de pr\u00e9-r\u00e9seaux et de post-r\u00e9seaux a permis au m\u00eame Transformer de traiter des donn\u00e9es textuelles et vocales. Les pr\u00e9-r\u00e9seaux traduisent le texte ou la parole en entr\u00e9e dans les repr\u00e9sentations cach\u00e9es du Transformer. Le post-net prend les sorties du Transformer et les reformate en texte ou en parole. Afin d&rsquo;entra\u00eener le mod\u00e8le pour un ensemble diversifi\u00e9 de langues, l&rsquo;\u00e9quipe alimente le mod\u00e8le avec des formats texte\/parole en entr\u00e9e et g\u00e9n\u00e8re ainsi la sortie correspondante en format texte\/parole.<\/p>\n<p>Contrairement \u00e0 d&rsquo;autres mod\u00e8les, SpeechT5 est unique car il permet aux utilisateurs de r\u00e9aliser de nombreuses activit\u00e9s en utilisant la m\u00eame architecture. Tout ce qui change, ce sont les pr\u00e9-nets et les post-nets. Le mod\u00e8le peut effectuer chaque t\u00e2che distincte de mani\u00e8re plus efficace apr\u00e8s avoir \u00e9t\u00e9 affin\u00e9 par un pr\u00e9-entra\u00eenement sur ces t\u00e2ches combin\u00e9es. L&rsquo;approche unifi\u00e9e codeur-d\u00e9codeur propos\u00e9e est capable de prendre en charge des t\u00e2ches de g\u00e9n\u00e9ration telles que la conversion de la voix et de la parole. Des tests \u00e0 grande \u00e9chelle r\u00e9v\u00e8lent que SpeechT5 surpasse consid\u00e9rablement toutes les solutions de base dans diverses t\u00e2ches de traitement du langage parl\u00e9. L&rsquo;\u00e9quipe de recherche pr\u00e9voit de pr\u00e9-entra\u00eener le SpeechT5 \u00e0 l&rsquo;avenir avec un mod\u00e8le plus grand et davantage de donn\u00e9es non \u00e9tiquet\u00e9es. Dans le cadre de travaux futurs, les scientifiques souhaitent \u00e9galement faire \u00e9voluer SpeechT5 pour r\u00e9soudre des t\u00e2ches impliquant le traitement du langage parl\u00e9 dans plusieurs langues.<\/p>\n<h2>Microsoft a d\u00e9voil\u00e9 VALL-E, un mod\u00e8le linguistique de synth\u00e8se vocale qui change la donne<\/h2>\n<p><a href=\"https:\/\/valle-demo.github.io\/\">Microsoft a pr\u00e9sent\u00e9 VALL-E, un nouveau mod\u00e8le de langage pour la synth\u00e8se vocale (TTS)<\/a> qui utilise des codes de codecs audio comme repr\u00e9sentations interm\u00e9diaires et peut reproduire la voix de n&rsquo;importe qui apr\u00e8s avoir \u00e9cout\u00e9 seulement trois secondes d&rsquo;enregistrement audio.<\/p>\n<p>VALL-E est un mod\u00e8le de langage \u00e0 codecs neuronaux dans lequel l&rsquo;IA segmente la parole et utilise ses algorithmes pour construire des formes d&rsquo;onde qui ressemblent \u00e0 la voix du locuteur, en conservant notamment son timbre et son ton \u00e9motionnel.<\/p>\n<p>Selon l&rsquo;article, VALL-E peut produire une parole personnalis\u00e9e de haute qualit\u00e9 avec seulement un enregistrement de trois secondes d&rsquo;un locuteur \u00a0servant de stimulus acoustique. Il n&rsquo;a pas besoin d&rsquo;ing\u00e9nierie structurelle suppl\u00e9mentaire, de caract\u00e9ristiques acoustiques pr\u00e9con\u00e7ues ou de r\u00e9glage fin.<\/p>\n<p>Des d\u00e9monstrations audio du mod\u00e8le IA en action sont fournies par VALL-E. Le \u00ab\u00a0Speaker Prompt\u00a0\u00bb, l&rsquo;un des \u00e9chantillons, est un signal auditif de trois secondes que VALL-E doit reproduire. \u00c0 des fins de comparaison, le \u00ab\u00a0Ground Truth\u00a0\u00bb est un extrait pr\u00e9c\u00e9demment enregistr\u00e9 du m\u00eame locuteur utilisant une certaine phrase (un peu comme le \u00ab\u00a0contr\u00f4le\u00a0\u00bb dans l&rsquo;exp\u00e9rience). L&rsquo;\u00e9chantillon \u00ab\u00a0Baseline\u00a0\u00bb repr\u00e9sente un exemple typique de synth\u00e8se texte-parole, et l&rsquo;\u00e9chantillon \u00ab\u00a0VALL-E\u00a0\u00bb repr\u00e9sente la sortie du mod\u00e8le VALL-E.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le monde de l&rsquo;IA a radicalement transform\u00e9 la vie quotidienne des individus. Des fonctionnalit\u00e9s telles que la reconnaissance vocale ont rendu relativement plus simple l&rsquo;ex\u00e9cution de t\u00e2ches telles que la prise de notes, la saisie de documents, etc. Le fait que la reconnaissance vocale soit plus rapide est ce qui la rend tr\u00e8s efficace. Avec [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":10140,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[77,69],"tags":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v23.5 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes<\/title>\n<meta name=\"description\" content=\"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes\" \/>\n<meta property=\"og:description\" content=\"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/\" \/>\n<meta property=\"og:site_name\" content=\"LenseUp, solutions vid\u00e9o et audio multilingues. Audioguides, audiobooks, traductions audio et video\" \/>\n<meta property=\"article:published_time\" content=\"2023-02-24T16:06:30+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-12-27T16:52:40+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1640\" \/>\n\t<meta property=\"og:image:height\" content=\"924\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"LenseUp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"LenseUp\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"7 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/\",\"url\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/\",\"name\":\"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes\",\"isPartOf\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg\",\"datePublished\":\"2023-02-24T16:06:30+00:00\",\"dateModified\":\"2023-12-27T16:52:40+00:00\",\"author\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337\"},\"description\":\"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.\",\"breadcrumb\":{\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage\",\"url\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg\",\"contentUrl\":\"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg\",\"width\":1640,\"height\":924},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Accueil\",\"item\":\"https:\/\/www.lenseup.com\/fr\/7440-2\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#website\",\"url\":\"https:\/\/www.lenseup.com\/fr\/\",\"name\":\"LenseUp, multilingual audio and video solutions\",\"description\":\"Traductions et contenus audio \/ video dans 30 langues.\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.lenseup.com\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337\",\"name\":\"LenseUp\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g\",\"caption\":\"LenseUp\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes","description":"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/","og_locale":"fr_FR","og_type":"article","og_title":"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes","og_description":"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.","og_url":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/","og_site_name":"LenseUp, solutions vid\u00e9o et audio multilingues. Audioguides, audiobooks, traductions audio et video","article_published_time":"2023-02-24T16:06:30+00:00","article_modified_time":"2023-12-27T16:52:40+00:00","og_image":[{"width":1640,"height":924,"url":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg","type":"image\/jpeg"}],"author":"LenseUp","twitter_card":"summary_large_image","twitter_misc":{"\u00c9crit par":"LenseUp","Dur\u00e9e de lecture estim\u00e9e":"7 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/","url":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/","name":"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes","isPartOf":{"@id":"https:\/\/www.lenseup.com\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage"},"image":{"@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage"},"thumbnailUrl":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg","datePublished":"2023-02-24T16:06:30+00:00","dateModified":"2023-12-27T16:52:40+00:00","author":{"@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337"},"description":"Voici trois approches innovantes observ\u00e9es derni\u00e8rement et qui laissent entrevoir des progr\u00e8s importants dans le domaine des voix de synth\u00e8se.","breadcrumb":{"@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/"]}]},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#primaryimage","url":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg","contentUrl":"https:\/\/www.lenseup.com\/wp-content\/uploads\/2023\/02\/tts-3-nouveautes.jpg","width":1640,"height":924},{"@type":"BreadcrumbList","@id":"https:\/\/www.lenseup.com\/fr\/text-to-speech-tts-et-synthese-vocale-3-approches-innovantes\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Accueil","item":"https:\/\/www.lenseup.com\/fr\/7440-2\/"},{"@type":"ListItem","position":2,"name":"Text-to-speech TTS et synth\u00e8se vocale: 3 approches innovantes"}]},{"@type":"WebSite","@id":"https:\/\/www.lenseup.com\/fr\/#website","url":"https:\/\/www.lenseup.com\/fr\/","name":"LenseUp, multilingual audio and video solutions","description":"Traductions et contenus audio \/ video dans 30 langues.","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.lenseup.com\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR"},{"@type":"Person","@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/dadfed1f52570f3378a4679e8e398337","name":"LenseUp","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.lenseup.com\/fr\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/630b0f43e55077cd2abe39e3e9e2a52c?s=96&d=mm&r=g","caption":"LenseUp"}}]}},"_links":{"self":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/10134"}],"collection":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/comments?post=10134"}],"version-history":[{"count":5,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/10134\/revisions"}],"predecessor-version":[{"id":10154,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/posts\/10134\/revisions\/10154"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/media\/10140"}],"wp:attachment":[{"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/media?parent=10134"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/categories?post=10134"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lenseup.com\/fr\/wp-json\/wp\/v2\/tags?post=10134"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}