DeepSeek, une startup chinoise d'IA, a révélé un nouveau modèle, “MODEL1”, dans son référentiel de code FlashMLA sur GitHub, apparaissant 28 fois dans 114 fichiers. La révélation coïncide avec le premier anniversaire de la sortie de DeepSeek R1. MODEL1 représente une architecture distincte de DeepSeek-V3.2, nommée en interne « V32 ». L'analyse du code par les développeurs indique des changements dans la disposition du cache clé-valeur, la gestion de la rareté et le décodage du format de données FP8. Ces modifications suggèrent une restructuration ciblée pour l'optimisation de la mémoire et l'efficacité des calculs. La divulgation a eu lieu via le référentiel FlashMLA de DeepSeek, qui contient le noyau de décodage Multi-Head Latent Attention de la société pour les GPU Nvidia Hopper. Les mises à jour du code source FlashMLA ont ajouté la prise en charge de MODEL1, y compris la compatibilité avec la prochaine architecture Blackwell (SM100) de Nvidia, selon des publications sur la communauté LocalLLaMA de Reddit. Les modifications du code montrent que MODEL1 revient à une dimension standard unifiée 512 et intègre des fonctionnalités décrites comme « Conscience de la position du vecteur de valeur » et des implémentations possibles du système de mémoire conditionnelle « Engram » de DeepSeek. DeepSeek prévoit de lancer son modèle V4 de nouvelle génération vers la mi-février 2026, coïncidant avec le Nouvel An lunaire le 17 février, selon Les informationscité par Reuters. Les tests internes effectués par les employés de DeepSeek suggèrent que la V4 pourrait surpasser les modèles concurrents d'Anthropic et d'OpenAI sur les tests de codage, en particulier avec de longues invites de code. Le modèle V4 devrait intégrer l'architecture Engram de DeepSeek, qui permet une récupération efficace à partir de contextes dépassant un million de jetons en utilisant un système de recherche de faits fondamentaux. La révélation de MODEL1 intervient un an après les débuts de DeepSeek R1 en janvier 2025. Cet événement, qualifié de « moment AI Spoutnik » par le capital-risqueur Marc Andreessen, a entraîné une réduction de 593 milliards de dollars de la valeur marchande de Nvidia en une seule journée. ITPro signalé. Le modèle R1 de DeepSeek aurait coûté moins de 6 millions de dollars à former, mais il aurait égalé ou dépassé le modèle o1 d'OpenAI en termes de tests mathématiques et de codage. La société a ensuite publié la V3.1 en août et la V3.2 en décembre, la V3.2 étant décrite comme offrant des performances équivalentes à celles du GPT-5 d'OpenAI.
Source: DeepSeek découvre l'identifiant MODEL1 avant le lancement de la V4
