Alibaba lance le modèle d'intelligence artificielle « QVQ-72B-Preview » avec des capacités d'inférence visuelle et une taille de paramètre accrue.
Alibaba a récemment lancé « QwQ-32B-Preview », un modèle d'IA doté de capacités de raisonnement logique. Plus récemment, l'entreprise a annoncé « QVQ-72B-Preview », un modèle d'IA intégrant des capacités de raisonnement visuel, soulignant des avancées significatives en matière de compréhension du langage et d'inférence visuelle, et vantant sa capacité à résoudre des problèmes complexes. « QVQ-72B-Preview » augmente non seulement le nombre de paramètres à 72 milliards d'ensembles, mais ajoute également des capacités de reconnaissance d'images. Combinant les capacités de compréhension et d'analyse d'un modèle de langage naturel à grande échelle, il utilise la compréhension contextuelle et l'analyse visuelle pour déduire des solutions à des problèmes complexes. Alibaba a déclaré que « QVQ-72B-Preview » peut être utilisé pour simuler le placement de meubles volumineux dans l'espace ou pour l'analyse et le diagnostic d'images médicales. De plus, « QVQ-72B-Preview » a obtenu d'excellentes performances lors de tests de référence mathématiques tels que MathVista, MathVision et OlympiadBench, ses performances sur MathVision se rapprochant de celles du modèle d'IA o1 d'OpenAI. Cependant, étant donné qu'il est encore en phase de prévisualisation, « QVQ-72B-Preview » peut rencontrer des boucles de raisonnement récursives lors de son exécution, et son temps de réponse peut également augmenter selon le langage utilisé. Actuellement, « QVQ-720B-Preview » est hébergé sur la plateforme Hugging Face et est disponible gratuitement pour tous en tant que logiciel libre.






