NVIDIA a dévoilé sa technologie Ethernet Spectrum-XGS lors de la conférence HOT Chips. Exploitant des algorithmes dérivés de la plateforme Spectrum-X, cette technologie permet aux centres de données situés dans différents endroits de fonctionner comme un supernœud unique grâce à un contrôle automatisé de la congestion des distances et de la gestion de la latence. NVIDIA affirme que Spectrum-XGS peut quasiment doubler les performances de la bibliothèque de communications collectives NVIDIA (NCCL) pour le calcul multi-GPU, accélérant ainsi considérablement la communication entre les GPU et les nœuds multiples, offrant ainsi des améliorations de performances prévisibles et quasi-linéaires pour l'entraînement de l'IA et l'inférence à grande échelle.
Cela signifie que la puissance des « supercalculateurs », autrefois confinée à un seul grand centre de données, peut désormais transcender les distances et les contraintes liées aux bâtiments, en connectant plusieurs centres de données indépendants au sein d'une seule « super-usine d'IA à grande échelle ». CoreWeave, entreprise spécialisée dans les infrastructures cloud d'IA, sera l'un des premiers partenaires à adopter la technologie Spectrum-XGS.
Construire une super-usine d'IA inter-domaines
Selon NVIDIA, Spectrum-XGS utilise des technologies de contrôle automatique de la congestion des distances et de gestion de la latence pour optimiser précisément l'efficacité des communications entre les GPU et les nœuds multiples, doublant ainsi quasiment les performances NCCL. Pour les clusters d'IA couvrant plusieurs villes, voire régions, cela signifie que la puissance de calcul peut être traitée comme un pool de calcul unique à très grande échelle, offrant des performances prévisibles comparables à celles d'un centre de données unique.
En d’autres termes, les centres de données distribués, auparavant limités par la distance physique, pourront à l’avenir franchir les frontières géographiques grâce à la connectivité Spectrum-XGS, devenant ainsi le cœur du calcul collaboratif de l’IA inter-domaines et offrant une évolutivité plus flexible.
Comparaison avec la technologie Ethernet de Broadcom
Dans le domaine de la technologie de commutation Ethernet, Broadcom est depuis longtempsJouer un rôle centralSes circuits intégrés spécifiques aux applications (ASIC) des séries Tomahawk et Trident sont quasiment standard dans les commutateurs des grands centres de données. Les atouts technologiques de Broadcom résident dans une densité de ports élevée, une faible consommation d'énergie et un écosystème mature, répondant largement aux besoins des opérateurs de cloud computing et de télécommunications. Cependant, si les solutions Broadcom peuvent offrir des débits d'échange de données allant jusqu'à plusieurs centaines de Tbit/s, elles restent principalement axées sur l'optimisation du trafic réseau traditionnel et ne sont pas totalement adaptées à la communication hautement synchronisée entre GPU requise lors de l'entraînement de l'IA.
En revanche, NVIDIA Spectrum-XGS est plus clairement positionné pour les réseaux d'IA dédiés. Ses capacités algorithmiques intègrent des capacités d'adaptation aux charges de travail d'IA distribuées, notamment le contrôle automatique de la congestion des distances, la compensation de la latence entre les centres de données et une intégration étroite avec l'écosystème matériel et logiciel NVIDIA, notamment NCCL et NVLink. Ainsi, Spectrum-XGS va au-delà de la simple concurrence sur le nombre de ports ou la bande passante, et est directement optimisé pour les besoins de communication de l'entraînement des modèles d'IA distribués.
En d'autres termes, si la technologie Ethernet Broadcom constitue l'infrastructure réseau principale des centres de données, NVIDIA Spectrum-XGS s'apparente davantage à une voie express dédiée, conçue spécifiquement pour l'IA. La première offre des économies d'échelle et une maturité accrue, tandis que la seconde privilégie la réduction du temps de formation et l'amélioration de la prévisibilité des performances interrégionales à l'ère de l'IA. Pour les entreprises qui investissent massivement dans le cloud de l'IA, ces deux rôles ne sont pas nécessairement complémentaires, mais plutôt complémentaires. Par exemple, la technologie Ethernet Broadcom permet de créer une infrastructure de connectivité universelle et NVIDIA crée une couche d'accélération dédiée à l'IA.
À mesure que les modèles d'IA se développent, les futurs centres de données cloud adopteront de plus en plus des approches multidomaines, inter-distances et hautement collaboratives. L'introduction de NVIDIA Spectrum-XGS démontre non seulement son engagement envers l'intégration matérielle et logicielle réseau, mais aussi l'évolution de l'infrastructure d'IA au-delà du cadre traditionnel des centres de données, vers une intégration interrégionale et des super-usines d'IA de niveau gigabit.







