Face à l'énorme consommation énergétique liée à l'entraînement et à l'inférence de l'IA, la réduction de la consommation énergétique des centres de données est devenue un enjeu majeur pour l'industrie technologique. Outre la pression sur la consommation énergétique induite par l'amélioration des performances de la puce elle-même, le système de refroidissement est une autre source majeure de consommation énergétique. Microsoft a récemment宣布Une avancée majeure a été réalisée dans la technologie de refroidissement, avec l'introduction d'une nouvelle solution de refroidissement utilisant la technologie microfluidique, qui prétend pouvoir augmenter l'efficacité du refroidissement jusqu'à trois fois celle des technologies existantes, et aider à réduire la distance entre les armoires de serveurs et à améliorer l'efficacité opérationnelle du centre de données.
Selon Microsoft, de nombreux centres de données utilisent actuellement des plaques froides pour refroidir les GPU, mais celles-ci sont séparées par plusieurs couches de matériau, ce qui limite l'efficacité de la dissipation thermique. La solution proposée par Microsoft rapproche le liquide de refroidissement de la source de chaleur. Grâce à des microcanaux capillaires, le liquide est dirigé avec précision vers l'arrière de la puce pour dissiper la chaleur, minimisant ainsi la résistance thermique. Cette technologie utilise également des modèles d'IA pour contrôler intelligemment le flux de liquide, garantissant ainsi une efficacité de refroidissement optimale même sous fortes charges.
D'après le schéma officiel, on peut voir que l'arrière de la puce est gravé d'un design de canal d'écoulement en maille semblable aux nervures des feuilles ou aux ailes de papillon, ce qui améliore l'uniformité de la distribution du liquide de refroidissement grâce à une structure de dérivation inspirée de la nature.
Microsoft affirme que cette conception permet de réduire la température maximale du GPU de 65 %, bien que ce chiffre varie en fonction de la charge de travail et du type de puce. Pour les applications d'IA gourmandes en ressources de calcul, cela évite non seulement la surchauffe de la puce et son ralentissement, mais permet également un overclocking supplémentaire sans risque d'endommager la puce.
Plus important encore, cette méthode de refroidissement contribue également à accroître la densité des baies de stockage des centres de données, permettant ainsi de rapprocher les serveurs, de réduire la latence de transmission du signal et, in fine, d'améliorer les performances informatiques globales. En matière de développement durable et d'économie d'énergie, cette technologie réduit la consommation d'énergie des équipements de refroidissement et produit une chaleur résiduelle de meilleure qualité, qui devrait être utilisée pour la récupération et la réutilisation d'énergie à l'avenir.
Bien que Microsoft n'ait pas spécifiquement insisté sur l'impact environnemental à long terme de cette technologie, elle cite la durabilité et la réduction de la pression sur le réseau comme avantages annexes. D'un point de vue industriel, si cette solution est commercialisée avec succès, elle pourrait considérablement améliorer les coûts d'exploitation des centres de données, l'évolutivité de l'IA et les objectifs de réduction des émissions de carbone.
Microsoft n'a pas encore annoncé de calendrier pour la production en série de cette technologie de refroidissement, ni si elle sera concédée sous licence à des partenaires. Cependant, avec l'expansion continue des modèles d'entraînement de l'IA, une gestion plus efficace de la consommation énergétique deviendra un nouveau champ de bataille dans la prochaine phase de la compétition pour le cloud computing.





