Nvidia a publié des données de référence montrant que ses systèmes GB300 NVL72 équipés de GPU Blackwell Ultra offrent un débit par mégawatt jusqu’à 50 fois supérieur et un coût par jeton 35 fois inférieur à celui de la plate-forme Hopper précédente pour les charges de travail d’IA à faible latence. Les gains de performances ciblent le marché en croissance des applications d’IA agentique et des assistants de codage.
Les cœurs Blackwell Ultra Tensor offrent des performances de calcul 1,5 fois supérieures à celles des GPU Blackwell standard. Le traitement de la couche d’attention a doublé grâce à l’exécution accélérée de softmax, résolvant les goulots d’étranglement dans les couches d’attention des transformateurs utilisées par les modèles de raisonnement avec de grandes fenêtres contextuelles. La bibliothèque d’inférence TensorRT-LLM de Nvidia s’est également améliorée, les tests SemiAnalysis montrant que le débit par GPU a doublé à certains niveaux d’interactivité depuis octobre 2025. La combinaison de ces avancées matérielles et logicielles a entraîné une multiplication par 10 du nombre de jetons par seconde par utilisateur et une amélioration par 5 du nombre de jetons par seconde par mégawatt par rapport à Hopper, ce qui a entraîné une augmentation de 50 fois de la production d’usine d’IA.
« À mesure que l’inférence se place au centre de la production de l’IA, les performances dans un contexte long et l’efficacité des jetons deviennent essentielles », a déclaré Chen Goldberg, vice-président senior de l’ingénierie chez CoreWeave. “Grace Blackwell NVL72 répond directement à ce défi.”
Les principaux fournisseurs de cloud déploient l’infrastructure GB300 NVL72. CoreWeave a annoncé en 2025 qu’il était le premier fournisseur de cloud IA à déployer les systèmes en production, en les intégrant à sa pile cloud basée sur Kubernetes. Microsoft a déployé ce qu’il a appelé le premier cluster de supercalculateur GB300 NVL72 à grande échelle au monde, atteignant plus de 1,1 million de jetons par seconde sur un seul rack lors de tests validés par Signal65. La plate-forme OCI d’Oracle déploie des systèmes GB300 NVL72 et prévoit de faire évoluer ses Superclusters au-delà de 100 000 GPU Blackwell pour répondre à la demande de charge de travail d’inférence.
Les réductions de coûts remodèlent l’économie du déploiement de l’IA. Les principaux fournisseurs d’inférence, notamment Baseten, DeepInfra, Fireworks AI et Together AI, ont signalé des réductions de coûts jusqu’à 10 fois supérieures à l’aide de la plate-forme standard Blackwell. La plate-forme Blackwell Ultra étend ces gains aux charges de travail à faible latence, avec un coût par million de jetons 35 fois inférieur permettant un déploiement plus économiquement viable d’agents d’IA et d’assistants de codage à grande échelle.
Nvidia a présenté en avant-première sa plate-forme Rubin de nouvelle génération, affirmant qu’elle offrirait une amélioration des performances 10 fois supérieure à celle de Blackwell.








