La société française d’IA Mistral a lancé un modèle open source de synthèse vocale nommé Voxtral TTS, conçu pour les assistants vocaux d’IA et les applications d’entreprise telles que le support client. Ce développement positionne Mistral directement par rapport à ses concurrents, notamment ElevenLabs, Deepgram et OpenAI.
Voxtral TTS prend en charge neuf langues : anglais, français, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe. Le modèle vise à répondre aux demandes des clients pour un modèle vocal flexible adapté à divers appareils de périphérie, offrant une solution rentable tout en maintenant des performances élevées.
Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, a déclaré : « Nos clients réclamaient un modèle vocal. Nous avons donc construit un modèle vocal de petite taille qui peut s’adapter à une montre intelligente, un smartphone, un ordinateur portable ou d’autres appareils de pointe. Il a souligné que même si le modèle est proposé à un prix compétitif, il offre des performances de pointe.
Le modèle permet l’adaptation de voix personnalisées avec des échantillons de moins de cinq secondes. Il capture des caractéristiques subtiles telles que les accents et les irrégularités de la parole. De plus, Voxtral TTS, basé sur Ministral 3B, peut changer de langue sans perte de qualité vocale, ce qui le rend adapté à la traduction et au doublage en temps réel.
Les mesures de performances du modèle sont remarquables. Il a un temps d’apparition du premier audio (TTFA) de 90 millisecondes pour un échantillon de 10 secondes de 500 caractères et un facteur temps réel (RTF) de 6x, ce qui signifie qu’il peut restituer un clip en environ 1,6 seconde.
Ce lancement fait suite à l’introduction par Mistral de deux modèles de transcription plus tôt en 2023, destinés au traitement par lots volumineux et aux cas d’utilisation en temps réel à faible latence. Voxtral TTS fait partie de la stratégie de Mistral visant à fournir une suite complète de produits vocaux aux entreprises.
Stock a décrit ses projets futurs en déclarant : « Nous prévoyons de disposer d’une plate-forme de bout en bout capable de gérer les flux d’entrée multimodaux, notamment l’audio, le texte et l’image. » Cette plateforme est destinée à valoriser les informations traitées par les systèmes dans lesquels elle s’intègre.








