Un modèle d'intelligence artificielle qui améliore le raisonnement logique a récemment été lancé「QwQ-32B-Aperçu」Alibaba avait annoncé plus tôt le lancement d'un modèle d'intelligence artificielle doté de capacités d'inférence visuelle.「QVQ-72B-Aperçu」, et souligne des progrès significatifs dans la compréhension du langage et le raisonnement visuel, affirmant être capable de résoudre des problèmes complexes.
En plus d'augmenter le nombre de paramètres à 72 milliards, le « QVQ-720B-Preview » ajoute également des capacités de reconnaissance d'images, combinées aux capacités de compréhension et d'analyse d'un grand modèle de langage naturel, pour déduire et résoudre des problèmes complexes grâce à la compréhension contextuelle, l'inférence et l'analyse visuelle.
Alibaba a déclaré que le QVQ-72B-Preview servira à simuler l'emplacement de meubles volumineux dans un espace, ainsi qu'à analyser et diagnostiquer des images médicales. De plus, le QVQ-72B-Preview a obtenu d'excellentes performances aux tests d'apprentissage mathématique MathVista, MathVision et OlympiadBench, ses performances MathVision approchant celles du modèle d'intelligence artificielle o1 d'OpenAI.
Cependant, comme il est encore au stade de prévisualisation, « QVQ-72B-Preview » peut rencontrer des boucles de raisonnement récursives lors de l'exécution, et son temps de réponse d'exécution augmentera lors du mélange de différents langages.
Actuellement, « QVQ-72B-Preview » est hébergé sur la plateforme Hugging Face et est disponible pour tous sous une forme open source.




