OpenAI a annoncé de nouvelles fonctionnalités d’intelligence vocale pour son API conçues pour aider les développeurs à créer des applications interactives capables de converser, de transcrire et de traduire en temps réel. Le modèle GPT-Realtime-2 récemment lancé, basé sur le raisonnement de classe GPT-5, vise à traiter les demandes des utilisateurs plus complexes par rapport à son prédécesseur, GPT-Realtime-1.5.
De plus, OpenAI a introduit GPT‑Realtime‑Translate, qui fournit des services de traduction en temps réel pour plus de 70 langues d’entrée et 13 langues de sortie. Cette fonctionnalité est conçue pour suivre le rythme des utilisateurs lors des conversations.
Une autre mise à jour majeure est la fonctionnalité GPT-Realtime-Whisper, qui offre une transcription parole-texte en direct pour les interactions en temps réel. “Ensemble, les modèles que nous lançons font passer l’audio en temps réel d’un simple appel et réponse à des interfaces vocales qui peuvent réellement fonctionner : écouter, raisonner, traduire, transcrire et agir au fur et à mesure du déroulement d’une conversation”, a déclaré OpenAI.
Ces mises à jour ciblent plusieurs secteurs, notamment le service client, l’éducation, les médias et l’événementiel, selon OpenAI. La société a noté que les nouvelles fonctionnalités pourraient également présenter des risques d’utilisation abusive, comme la création de spam ou de fraude. Pour atténuer ce problème, OpenAI a mis en place des garde-fous conçus pour mettre fin aux conversations qui enfreignent les directives relatives aux contenus préjudiciables.
Tous les nouveaux modèles vocaux font partie de l’API Realtime d’OpenAI. La structure de facturation varie, GPT-Realtime-Translate et GPT-Realtime-Whisper étant facturés à la minute, tandis que GPT-Realtime-2 est facturé en fonction de la consommation de jetons.








