Les chercheurs de DeepSeek ont ​​publié lundi un nouveau modèle expérimental, V3.2-exp, conçu pour réduire considérablement les coûts d’inférence lorsqu’il est utilisé dans des opérations à long contexte. DeepSeek a annoncé le modèle dans un article sur Hugging Face et a également publié un article académique lié sur GitHub qui fournit des détails sur son architecture et ses performances.

La fonctionnalité la plus importante du modèle est appelée DeepSeek Sparse Attention. Ce système utilise un module appelé « indexeur Lightning » pour prioriser des extraits spécifiques de la fenêtre contextuelle. Après cette étape, un système distinct, un « système de sélection de jetons à granularité fine », choisit des jetons spécifiques parmi ces extraits. Ces jetons sélectionnés sont ensuite chargés dans la fenêtre d’attention limitée du module. Cette combinaison permet au modèle Sparse Attention de fonctionner sur de longues portions de contexte avec des charges de serveur relativement faibles.

Les avantages du système sont significatifs pour les opérations à long contexte. Des tests préliminaires menés par DeepSeek ont ​​révélé que le prix d’un simple appel d’API pouvait être réduit de moitié dans ces situations. Des tests supplémentaires seront nécessaires pour construire une évaluation plus solide des allégations. Le modèle est ouvert et disponible gratuitement sur Hugging Face, ce qui permettra à des tests tiers d’évaluer les résultats présentés dans l’article.

Le nouveau modèle de DeepSeek fait partie d’une série d’avancées récentes qui résolvent le problème des coûts d’inférence. Ces coûts représentent les dépenses de serveur liées à l’exploitation d’un modèle d’IA pré-entraîné, qui sont distinctes du coût de sa formation. Les chercheurs de DeepSeek cherchaient des moyens de rendre l’architecture fondamentale du transformateur plus efficace et ont découvert que des améliorations significatives restaient à apporter.

Basé en Chine, DeepSeek est une figure inhabituelle dans le secteur de l’IA, en particulier pour ceux qui considèrent la recherche sur l’IA comme une lutte nationaliste entre les États-Unis et la Chine. L’entreprise a attiré l’attention en début d’année avec son modèle R1, formé principalement par apprentissage par renforcement, à un coût bien inférieur à celui de ses concurrents américains. Cependant, le modèle n’a pas déclenché une révolution globale dans la formation en IA comme certains le prédisaient, et l’entreprise a disparu des projecteurs au cours des mois qui ont suivi.

Il est peu probable que la nouvelle approche de « l’attention éparse » suscite le même tollé que la R1, mais elle pourrait néanmoins enseigner aux fournisseurs américains quelques astuces indispensables pour les aider à maintenir les coûts d’inférence à un niveau bas.