NVIDIA a annoncé le GPU « Rubin CPX » lors de l’AI Infra Summit, un accélérateur spécialisé de la prochaine famille « Rubin » conçu pour les modèles d’IA à contexte massif. Attendue d’ici fin 2026, la puce fournit 30 PetaFLOPS de calcul NVFP4 sur une puce monolithique avec 128 Go de mémoire GDDR7. Cette configuration monolithique s’écarte des packages à double GPU des architectures Blackwell et Blackwell Ultra actuelles de NVIDIA et de ce que le reste de la famille Rubin suivra. Le Rubin CPX résout les goulots d’étranglement informatiques dans les scénarios à contexte étendu, en traitant simultanément des millions de jetons pour des applications telles que l’analyse complète de la base de code logiciel et le traitement vidéo d’une heure, qui peuvent nécessiter jusqu’à un million de jetons.
Le processeur intègre quatre encodeurs vidéo NVENC et quatre NVDEC sur puce, permettant des flux de travail multimédia rationalisés. NVIDIA déclare que le Rubin CPX offre une vitesse de traitement de l’attention trois fois supérieure à celle de ses systèmes d’accélérateur GB300 Blackwell Ultra actuels. L’architecture utilise une approche mono-puce optimisée en termes de coûts pour potentiellement réduire la complexité de fabrication tout en maintenant la densité de calcul. Bien que les spécifications de bande passante mémoire ne soient pas divulguées, une interface de 512 bits pourrait produire un débit d’environ 1,8 To/s avec des puces mémoire GDDR7 de 30 Gbit/s.
NVIDIA prévoit d’intégrer les processeurs Rubin CPX dans la plate-forme Vera Rubin NVL144 CPX, combinant les GPU Rubin traditionnels avec les variantes CPX spécialisées. Cette configuration hybride vise 8 ExaFLOPS de calcul agrégé et 1,7 Po/s de bande passante mémoire sur un déploiement complet en rack. Le rack « Kyber » comprendra des adaptateurs réseau ConnectX-9 avec réseau 1600G, Spectrum6 avec commutation 102,4T et des optiques co-packagées.
NVIDIA commercialise le Rubin CPX comme un produit unique dans la famille Rubin pour gérer la complexité des systèmes d’IA évolutifs au moment des tests. À mesure que les modèles évoluent vers des agents de raisonnement sophistiqués, l’inférence se divise entre le traitement contextuel intensif en calcul et la génération de jetons dépendant de la bande passante mémoire. La conception CPX est optimisée pour ces deux exigences, en gérant les opérations de pré-remplissage du contexte pour les chatbots d’entreprise avec 256 000 jetons ou l’analyse de code dépassant 100 000 lignes. Cette spécialisation est essentielle pour les systèmes d’IA qui ont besoin d’une mémoire persistante lors d’interactions étendues, ce que NVIDIA vise à permettre de manière transparente avec ce matériel.
Le cycle de développement rapide de NVIDIA a amélioré ses performances financières, la société ayant déclaré 41,1 milliards de dollars de ventes de centres de données au cours de son dernier trimestre.








