Dans Événement Google NEXT'25Dans l'article, Google a expliqué plus en détail l'idée derrière la création du composant d'accélération TPU, qui vise principalement à obtenir une accélération informatique plus pure et à fournir des effets d'accélération plus rentables dans de nombreux modes de calcul.

Le TPU garantit toujours des performances d'accélération plus pures
Outre le TPU, Google a investi dans de nombreux processeurs personnalisés, tels que des composants de transcodage vidéo pour des services comme YouTube, et des composants de traitement d'image VPU pour des équipements comme les téléphones Pixel. Parmi ses autres innovations figurent Willow pour l'informatique quantique, Titanium, qui intègre des microcontrôleurs personnalisés et un système de déchargement horizontal par couches pour répartir le déchargement des paquets réseau et l'architecture de sécurité, ainsi que NVIDIA…Processeur Axion basé sur l'architecture Arm Neoverse V2, correspondant ainsi à différentes exigences d'accélération de calcul.
En 2015, l'entreprise a été pionnière en créant le premier TPU (Tensor Processing Unit) spécifiquement conçu pour ses services et destiné à l'accélération. Ce dispositif, fabriqué sous la forme d'une puce ASIC (Specially Designed Chip), offre des performances élevées, des coûts réduits et une consommation énergétique réduite. Son évolutivité transparente lui permet d'accélérer les modèles d'IA et les opérations de bases de données à grande échelle, tout en offrant un équilibre optimal entre performances et coûts.
Google a annoncé pour la première fois l'utilisation du TPU en 2015. À l'époque, il était principalement utilisé pour accélérer le calcul de ses propres services, comme la recherche Google. En 2018, la version v2 a été lancée, ajoutant une architecture de calcul Pod empilable et une architecture de mémoire partagée distribuée. La version v2020, lancée en 3, a doublé l'échelle d'empilement et a également commencé à intégrer un système de refroidissement par eau. La version v2022, lancée en 4, a ajouté une conception d'interconnexion par fibre optique, permettant d'empiler considérablement le nombre de combinaisons de Pods. De plus, la conception du TPU a été mise à jour année après année.
Les versions v2023e et v5p, lancées en 5, sont les seuls produits TPU à bénéficier de deux conceptions dérivées lancées la même année, chacune répondant à des besoins d'accélération de calcul différents. La version « Trillium », lancée en 2024, cible la prochaine génération de modèles d'IA et offre une puissance de calcul 2 fois supérieure à celle de la version v100.
L'importance d'« Ironwood » réside dans l'amélioration des performances d'accélération de l'inférence des modèles d'intelligence artificielle
Annoncé cette annéeBois de ferGrâce à l'intégration de 192 Go de mémoire à large bande passante, il peut traiter des modèles et des ensembles de données d'intelligence artificielle plus volumineux (toutes les données du modèle peuvent être lues directement dans la mémoire HBM), tout en réduisant la fréquence des transmissions de données et en améliorant encore l'efficacité d'exécution. La performance maximale atteint 4614 30 TFLOPS, et la performance de sortie par watt est près de XNUMX fois supérieure à celle du TPU de première génération.
Google a également annoncé que son supercalculateur, construit autour d'« Ironwood », sera capable de prendre en charge la quasi-totalité des charges de travail d'IA et offrira une meilleure rentabilité. Par exemple, Gemini Flash 1 atteint un coût de performance par dollar d'efficacité d'exécution environ 2.0 fois supérieur à celui du GPT-4o d'OpenAI et environ cinq fois supérieur à celui de DeepSeek-R24.
En investissant dans la conception hautement personnalisée de la puce TPU, Google affirme pouvoir atteindre des performances de calcul par watt supérieures. L'entreprise se targue également de l'architecture matérielle basée sur un modèle de calcul logiciel plus proche de celui de Google, ce qui se traduit par des gains d'accélération de calcul plus importants.

Google prévoit de déployer officiellement Ironwood d'ici la fin de l'année afin de répondre aux exigences d'un calcul plus intensif et à la demande croissante du marché en matière d'intelligence artificielle (IA). Google a également confirmé que le modèle d'IA Gemini 2.5 récemment annoncé et la nouvelle version de son programme de prédiction de la structure des protéines AlphaFold fonctionneront sur l'architecture d'accélération Ironwood.
Parallèlement, en matière de besoins en matière d'infrastructures cloud, Google a également expliqué qu'il offrirait aux utilisateurs un plus grand choix de puces Intel, AMD et NVIDIA, permettant ainsi d'obtenir des performances d'accélération plus élevées. Par exemple, le calcul accéléré par TPU peut être utilisé pour le tri et la recommandation de contenu, la recherche de contenu sur les plateformes de commerce électronique, etc., ce qui permet de réduire encore les coûts d'accélération.

Il n’existe pas de conception parfaite pour le matériel informatique accéléré actuel, seulement des options plus adaptées.
Quant à « Ironwood », nouvellement lancé, outre sa capacité à gérer l'accélération du calcul par intelligence artificielle à grande échelle, son principal atout réside dans sa conception d'accélération du calcul par inférence de modèle. Ce dernier rend le modèle d'intelligence artificielle utilisant ce calcul accéléré par TPU plus « réfléchi » et permet de traiter des réponses interactives plus rapidement. Par exemple, il peut être utilisé dans les services d'assistants numériques pour répondre aux questions, ou permettre à l'intelligence artificielle de réaliser des inférences et de générer du contenu plus rapidement.
Cependant, même si Google vante les performances de calcul accélérées de la conception TPU, celle-ci ne répond pas à tous les besoins. Par exemple, elle ne dispose pas de capacités de contrôle des entrées et sorties de données, ce qui nécessite son utilisation en association avec d'autres processeurs. Comparé aux GPU, il offre également différents modes d'utilisation du calcul accéléré. Par conséquent, Google met l'accent sur l'offre d'un plus grand nombre d'options d'architecture matérielle pour l'accélération du calcul sur sa plateforme de services cloud, permettant ainsi aux utilisateurs de choisir la solution d'accélération matérielle la plus adaptée à leurs besoins réels. Google vante également le TPU comme offrant le meilleur équilibre entre performances et coût.







