ENFR
8news

Tech • IA • Crypto

Aujourd'huiMa veilleVidéosTop articles 24hArchivesFavorisMes topics

NVIDIA Vera — le CPU pour les agents

NvidiaNVIDIA1 juin 2026 à 21:412:48
Lecteur audio
0:00 / 0:00

INTRO

Nvidia a présenté Vera, un CPU pour centre de données conçu pour éliminer les goulots d’étranglement dans les systèmes d’IA agentique et améliorer les performances pilotées par GPU.

POINTS CLÉS

Évolution du rôle du CPU

L’essor de l’IA agentique redéfinit l’architecture des systèmes, plaçant le CPU comme coordinateur plutôt que comme principal moteur de calcul. Les GPU gèrent désormais la majorité des charges lourdes, tandis que les CPU orchestrent le flux de données, l’exécution des tâches et la réactivité du système. Cette évolution rend l’efficacité du CPU cruciale pour les performances globales.

Goulot d’étranglement dans les charges IA

Les CPU traditionnels, optimisés pour la virtualisation et la densité de cœurs, peinent à suivre les exigences des GPU. Ce décalage peut limiter le débit de tokens, augmenter la latence et dégrader l’expérience utilisateur dans les applications d’IA, surtout pour l’inférence en temps réel et les workflows agentiques multi-étapes.

Introduction de Nvidia Vera

Nvidia Vera est conçu spécifiquement pour les boucles d’IA agentique, combinant une architecture CPU personnalisée avec un tissu de cohérence évolutif. Il vise à équilibrer performance de calcul et bande passante afin de maintenir une utilisation maximale des GPU dans des environnements d’« usines » d’IA.

Architecture de cœur Olympus

Au cœur de Vera se trouve le cœur CPU Nvidia Olympus, optimisé pour les tâches modernes de centre de données comme les environnements Python, l’orchestration d’outils et l’exécution isolée. Il inclut un prédicteur de branche neuronal capable d’évaluer deux branches par cycle, un moteur de décodage 10-wide, et un large système d’exécution out-of-order pour soutenir le débit.

Performances mémoire avancées

Vera est le premier CPU à adopter la mémoire LPDDR5X dans ce contexte tout en conservant une forte correction d’erreurs sans sacrifier la bande passante. Il offre jusqu’à 40 % de latence mémoire en moins au pic par rapport aux systèmes x86, améliorant les tâches intensives en données comme la recherche et l’analytique.

Cohérence et interconnexion

Un tissu de cohérence évolutif de seconde génération relie les 88 cœurs dans un maillage unifié, évitant la fragmentation en chiplets et permettant une communication inter-cœurs 50 % plus rapide. Des dies distincts pour la mémoire et les E/S optimisent davantage le flux de données.

Intégration NVLink et scalabilité

La connectivité NVLink chip-to-chip permet aux GPU d’accéder directement au tissu cohérent du CPU, améliorant la coordination entre unités de calcul. Cette technologie permet aussi une montée en charge multi-socket avec une communication CPU-à-CPU à haute bande passante.

Gains de performance

Vera offre jusqu’à 1,8× de performance en plus sur des charges de sandbox agentique par rapport aux CPU x86 traditionnels. Il est conçu pour gérer l’orchestration, l’exécution d’outils, les pipelines de données et le traitement contextuel aux côtés des GPU.

Infrastructure IA full-stack

Associé aux GPU Rubin et au BlueField-4 STX pour le réseau et le stockage, Vera s’inscrit dans une pile d’infrastructure IA intégrée. Cette approche vise une optimisation de bout en bout du calcul, de la mémoire et des mouvements de données.

CONCLUSION

Vera illustre une transition vers des CPU dédiés à l’orchestration dans des systèmes d’IA centrés sur les GPU, avec l’objectif de supprimer les goulots d’étranglement et d’améliorer les performances des charges agentiques émergentes.

Transcription complète

Agentic AI changes the role of the CPU. The CPU is now the conductor and the GPU is the orchestra. Traditional CPUs [music] were built for a different era, maximizing cores per socket. Slice them up, virtualize, [music] rent by the hour. In the age of agents, the CPU is now a bottleneck to GPU utilization, directly affecting token throughput, latency, and user experience. [music] Nvidia Vera is the CPU built for the agentic loop, combining Nvidia's custom [music] data center CPU core with a scalable coherency fabric for the right balance of performance cores [music] and bandwidth to maximize AI factory output. At the heart of Vera is the Nvidia Olympus [music] core, built for modern data center workloads, branch-heavy Python runtimes, tool calls, and sandboxed code execution. Each core is tuned for throughput. A neural branch predictor evaluating two taken branches per cycle. A 10-wide decode engine brings in more work each cycle. A large out-of-order engine keeps instructions moving. Advanced prefetchers with a novel graph engine anticipating the next data path. But fast cores only matter when data [music] arrives correctly and on time. Vera is the first CPU to use LPDDR5X memory while correcting multiple errors simultaneously without compromising bandwidth. Vera achieves 40% lower peak memory latency versus X86, keeping cores fed on time through retrieval, analytics, and sandbox execution. Nvidia's second-generation scalable coherency [music] fabric unifies all 88 Olympus cores on a monolithic mesh with separate dies for memory and IO. Cores are not split across chiplets, enabling 50% faster core-to-core communication than traditional [music] CPUs. And memory coherent NVLink chip-to-chip connects GPUs directly to the fabric. Beyond GPUs, NVLink chip-to-chip can scale Vera up to multiple sockets enabling massive bandwidth between CPUs. Vera delivers 1.8 [music] times the agentic sandbox performance of x86 CPUs. Standalone Vera racks run agent sandboxes, tools, code, and data pipelines. Tightly coupled to Rubin GPUs, Vera keeps accelerated workflows moving. NVIDIA Vera BlueField [music] 4 STX powers context memory and AI storage. Compute, networking, storage, Vera is the CPU for the age of agents.

Sur le même sujet : Nvidia