OpenAI publié GPT-5.4 jeudi, introduisant une version standard aux côtés des variantes GPT-5.4 Thinking et GPT-5.4 Pro. L’entreprise a décrit ce modèle comme son modèle frontalier le plus performant et le plus efficace pour le travail professionnel.
La version API prend en charge les fenêtres contextuelles jusqu’à 1 million de jetons, la plus grande disponible auprès d’OpenAI. Le modèle démontre également une efficacité améliorée des jetons, résolvant les problèmes avec beaucoup moins de jetons que son prédécesseur.
GPT-5.4 a obtenu des scores records dans les tests d’utilisation des ordinateurs OSWorld-Verified et WebArena Verified. Il a également obtenu un score de 83 % au test GDPval d’OpenAI pour les tâches de travail intellectuel.
Le modèle est à la tête du benchmark APEX-Agents de Mercor, qui teste les compétences professionnelles en droit et en finance, selon Brendan Foody, PDG de Mercor. Foody a déclaré que GPT-5.4 excelle dans la création de livrables à long terme tels que des présentations de diapositives et des modèles financiers, offrant des performances optimales plus rapidement et à moindre coût que ses concurrents.
OpenAI a déclaré que le modèle est 33 % moins susceptible de commettre des erreurs dans les réclamations individuelles par rapport à GPT 5.2. Dans l’ensemble, les réponses sont 18 % moins susceptibles de contenir des erreurs.
La société a introduit Tool Search pour gérer les appels d’outils dans l’API. Le système recherche les définitions d’outils selon les besoins, réduisant ainsi l’utilisation des jetons et les coûts dans les systèmes dotés de nombreux outils.
OpenAI a ajouté une nouvelle évaluation de sécurité pour tester la surveillance de la chaîne de pensée. L’évaluation a montré que la tromperie est moins probable dans la version GPT-5.4 Thinking, ce qui suggère que le modèle n’a pas la capacité de cacher son raisonnement.








