DeepSeek a lancé son nouveau modèle d’IA, DeepSeek V4, revendiquant des performances améliorées optimisées pour les puces produites localement en Chine. Le modèle présente un contexte ultra long d’un million de mots, améliorant les capacités des agents, la connaissance du monde et les performances de raisonnement.
DeepSeek V4 est disponible en deux versions : DeepSeek V4-Pro et DeepSeek V4-Flash. L’entreprise décrit cette dernière comme une option plus efficace et plus économique. Selon DeepSeek, V4-Pro surpasse considérablement les autres modèles open source dans les benchmarks mondiaux de connaissances et n’est que légèrement dépassé par le modèle open source de Google, Gemini-Pro-3.1.
La variante V4-Pro comprend un « mode d’effort de raisonnement maximal » conçu pour faire progresser les capacités de connaissances des modèles open source, ce qui en fait l’un des principaux concurrents dans cet espace. DeepSeek avait déjà provoqué une vente de plusieurs milliards de dollars en bourse avec son modèle précédent, R1, qui défiait les systèmes d’IA comme ChatGPT d’OpenAI à un coût de développement inférieur.
La version R1 de l’année dernière a entraîné des pertes importantes pour les grandes entreprises technologiques, Nvidia ayant subi plus de 500 milliards de dollars en une seule journée. Le lancement a également marqué la première compétition majeure d’une société chinoise d’IA contre des géants technologiques américains établis. La sortie de DeepSeek intervient dans un contexte de restrictions américaines à l’exportation de semi-conducteurs vers la Chine, affectant particulièrement les GPU haut de gamme essentiels au développement de l’IA.
Le système de puce utilisé pour la formation DeepSeek V4 n’a pas été divulgué, mais la société a déclaré qu’il prend en charge les puces Nvidia et Huawei. DeepSeek V4 peut traiter jusqu’à 384 000 jetons, une unité de données fondamentale pour les modèles d’IA. Cela marque une amélioration significative par rapport à son prédécesseur, la V3, qui ne gérait que 128 000 jetons.
La mise à niveau permet un raisonnement multi-documents, permettant à l’IA de comprendre des livres entiers et des bases de données de codes complets. La société affirme que cette capacité représente un « bond spectaculaire en termes d’efficacité informatique » et ouvre une nouvelle ère pour les grands modèles de langage avec des contextes d’un million de longueur.
DeepSeek V4-Pro surpasse le Gemini-3.1-Pro de Google mais reste à la traîne du modèle Claude Opus 4.6 d’Anthropic. DeepSeek vise à améliorer encore l’intelligence, la robustesse et la convivialité du modèle pour diverses tâches et scénarios.








