NVIDIA a annoncé le lancement de quatre plateformes d'inférence et a fourni les nouveaux GPU NVIDIA L4 Tensor Core et NVIDIA H4 NVL comme applications d'accélération d'inférence. La société a également collaboré avec des acteurs du secteur tels que Google Cloud, Kuaishou, D-ID et Cohere pour les présenter et accélérer le développement de divers types de services d'intelligence artificielle générés automatiquement.
La plateforme d'inférence proposée est principalement composée d'Ada, du GPU Hopper ou de la superpuce « Grace + Hopper », et intègre également deux nouveaux composants d'accélération : le GPU NVIDIA L4 Tensor Core et le GPU NVIDIA H100 NVL. Optimisée pour différentes charges de travail, elle répond principalement aux besoins de l'intelligence artificielle (IA) en matière de vidéo, de génération d'images, de déploiement de modèles linguistiques à grande échelle et d'inférence de systèmes de recommandation.
Parmi eux, le GPU NVIDIA L4 Tensor Core offre des performances de génération vidéo par intelligence artificielle 120 fois supérieures à celles des processeurs traditionnels, avec une efficacité énergétique atteignant 99 %, et peut gérer diverses charges de travail. Il répond également aux besoins d'applications telles que des capacités de décodage et de transcodage vidéo plus puissantes, le streaming vidéo, la réalité augmentée et la vidéo générative par intelligence artificielle.
Le GPU NVIDIA H100 NVL permet de déployer de grands modèles de langage naturel tels que ChatGPT. Il dispose de 94 Go de mémoire d'affichage et de capacités d'accélération du moteur Transformer. Les performances d'inférence de modèles de langage GPT-3 sur des serveurs à l'échelle d'un centre de données sont 100 fois supérieures à celles du GPU A12 de la génération précédente.
Google Cloud a été le premier à implémenter les GPU NVIDIA L4 Tensor Core sur sa plateforme de machine learning Vertex AI et est devenu le premier fournisseur de cloud public à proposer des instances de GPU NVIDIA L4 Tensor Core. Parmi ces instances figurent Descript, qui utilise l'IA générative pour aider les créateurs à créer des vidéos et des podcasts, et WOMBO, qui a baptisé « Dream » son application de conversion de texte en art numérique par IA. Ces deux entreprises comptent parmi les premières à adopter les GPU NVIDIA L4 Tensor Core sur la plateforme Google Cloud.
D'autres, dont Kuaishou, la plateforme d'IA générative D-ID, le studio de production d'IA Seyhan Lee et la société d'IA linguistique Cohere, utilisent la plateforme d'inférence NVIDIA pour accélérer le développement d'applications d'IA.
La superpuce Grace + Hopper et le GPU NVIDIA H100 NVL devraient tous deux commencer à être expédiés au cours du second semestre de cette année, tandis que le GPU NVIDIA L4 Tensor Core est disponible pour des tests d'aperçu privés via Google Cloud et auprès de fournisseurs tels qu'Advantech, ASUS, Atos, Cisco, Dell, Fujitsu, GIGABYTE, HPE, Lenovo, QCT et Supermicro.



