Lors de la récente conférence Hot Chips 2025, le co-directeur du projet Google DeepMind Gemini et co-auteur du document sur le modèle Transformer « Attention Is All You Need »Noam Shazeer, avec pour thème « Prédiction de la prochaine étape de l'IA », explique la prochaine étape du développement de l'IA.
Noam Shazeer, qui a quitté Google pour créer une entreprise de technologie d'intelligence artificielle après que Google ait refusé de reconnaître que les chatbots avaient une « conscience de soi »,Caractère.AI, puis est « revenu » au système Google pour un prix exorbitant de 27 milliards de dollars et est devenu un scientifique de Google DeepMind.
Que recherche LLM ? — Puissance de calcul, mémoire et bande passante réseau
Lors de son discours à la conférence Hot Chips 2025, Noam Shazeer a souligné que la puissance de calcul était l'élément le plus important pour les modèles linguistiques à grande échelle. Un nombre accru de FLOPS se traduit par des modèles plus volumineux, un contexte plus étendu et de meilleures capacités de raisonnement.
Noam Shazeer a également rappelé qu'en 2015, la formation de modèles sur 32 GPU était considérée comme un événement majeur, mais dix ans plus tard, des centaines de milliers de GPU pourraient être nécessaires pour prendre en charge la dernière échelle de formation LLM.
Noam Shazeer estime que la puissance de calcul doit atteindre le pétaflop, voire plus, pour répondre aux besoins d'entraînement des grands modèles. Une mémoire et une bande passante plus importantes déterminent la taille des modèles d'IA et la quantité d'états intermédiaires pouvant être sauvegardés lors de l'inférence, ce qui est crucial pour les mécanismes de contexte et d'attention à long terme.
De plus, la bande passante du réseau joue également un rôle important lorsque les paramètres du modèle sont répartis sur l'ensemble du réseau informatique. Il est nécessaire de garantir une latence extrêmement faible lors des échanges de données entre puces afin d'accélérer l'inférence et de prendre en charge le raisonnement par « chaîne de pensée longue ».
Noam Shazeer a également souligné qu'en plus d'augmenter l'échelle matérielle, il est raisonnable de réduire la précision de calcul (comme FP8 et INT4) en échange de performances plus élevées, mais la reproductibilité (déterminisme) ne doit pas être sacrifiée, sinon il sera impossible de déboguer et de vérifier efficacement le modèle.
La synergie entre logiciel et matériel fait progresser l'IA
Noam Shazeer, connu pour son esprit de croisement inversé, est profondément curieux de l'architecture réseau sous-jacente du TPU et a piloté des projets tels que Mesh-TensorFlow. Il est convaincu que la co-conception matériel-logiciel est essentielle à la croissance du LLM. De la SRAM intégrée et de la mémoire haut débit à la conception de réseaux de clusters, tout doit être adapté aux exigences du modèle pour maximiser son potentiel.
Pendant ce temps, Noam Shazeer concluait avec cette phrase : « Avec des clusters plus grands, plus rapides et plus stables, vous pouvez former des modèles plus intelligents. »
Si le matériel cesse de s’améliorer, l’AGI peut-elle être atteinte ?
Lorsque le public a posé une question précise : « Si le matériel cessait de s'améliorer à partir d'aujourd'hui, pourrions-nous encore atteindre l'AGI ? », Noam Shazeer a donné une rare réponse affirmative : Oui.
Noam Shazeer estime que l'IA elle-même accélérera l'évolution de la conception des logiciels et des systèmes. Même si le matériel stagne, des avancées majeures peuvent encore être réalisées grâce à l'innovation algorithmique. Noam Shazeer a toutefois ajouté : « Si nous pouvions obtenir un meilleur matériel, ce serait encore mieux. »
