Le MIT et NVIDIA dévoilent « FoundationMotion » ! Cette technologie permet à l'IA de véritablement « comprendre » le mouvement vidéo, répondant ainsi aux problématiques de la conduite autonome et de la robotique.
Une équipe de recherche dirigée par des professeurs du MIT, en collaboration avec NVIDIA, l'Université du Michigan, l'UC Berkeley et l'Université de Stanford, a publié une étude révolutionnaire intitulée « FoundationMotion » sur arXiv. Cette technologie s'attaque à l'un des principaux problèmes de l'IA actuelle : le manque de données d'annotation de mouvement de haute qualité. Grâce à ce système automatisé, les ordinateurs peuvent enfin comprendre les mouvements continus des objets et des personnes dans les vidéos, à l'instar des humains, ce qui aura un impact considérable sur les secteurs de la conduite autonome et de la robotique. Le talon d'Achille des IA de pointe : capables de voir les « objets », mais incapables de comprendre les « mouvements ». L'équipe de recherche a constaté que même les modèles d'IA les plus puissants (comme Gemini de Google) interprètent mal des scènes dynamiques simples, comme « une voiture qui tourne à droite ». La cause principale ? La plupart des données d'entraînement existantes sont constituées d'annotations d'images statiques, tandis que les annotations de mouvement vidéo de haute qualité sont extrêmement rares. Traditionnellement, l'annotation de quelques secondes de vidéo exige que des professionnels passent plusieurs minutes à vérifier chaque image, une tâche extrêmement coûteuse et difficile à industrialiser. Cela permet à l'IA de reconnaître les voitures dans le champ de vision, mais sans pouvoir prédire leurs mouvements futurs. L'IA enseigne à l'IA : une usine de données entièrement automatisée. Pour résoudre ce problème, l'équipe de recherche a développé « FoundationMotion », un pipeline de production de données entièrement automatisé. Tel un super assistant infatigable, il surveille, suit et décrit automatiquement le contenu vidéo. Le système fonctionne en quatre étapes : • Prétraitement vidéo : extraction automatique de segments clés de 5 à 10 secondes. • Détection et suivi d'objets : utilisation de Qwen2.5-VL pour identifier les catégories d'objets et de SAM 2 (Segment Anything Model 2) pour attribuer une « carte d'identité » à chaque objet en mouvement, permettant de verrouiller précisément sa trajectoire malgré les mouvements ou les occlusions. • Génération de descriptions linguistiques : grâce à GPT-4o-mini, le système traduit les données de trajectoire brutes en langage humain, fournissant des descriptions détaillées selon sept dimensions, incluant la reconnaissance des actions et la séquence temporelle. • Génération de paires question-réponse : Génération automatique de questions de test pour l’IA, comprenant cinq types de questions couvrant la reconnaissance d’actions, la localisation spatiale, etc. Grâce à ce processus, l’équipe a constitué un vaste ensemble de données contenant 46.7 000 clips vidéo et paires question-réponse, un travail qui aurait auparavant nécessité des années de la part de centaines de personnes. Le retour en force des modèles de taille moyenne : La qualité des données prime sur la taille des paramètres. L’aspect le plus surprenant réside dans les résultats de l’entraînement. L’équipe de recherche a utilisé cet ensemble de données pour affiner le modèle open source NVILA-Video-15B, et les résultats ont montré que le modèle atteignait une précision de 91.5 % dans la compréhension des scénarios de conduite autonome. Cette performance surpasse directement celle des modèles Gemini-2.5-Flash (84.1 %) et Qwen-2.5-VL-72B (83.3 %), qui possèdent un plus grand nombre de paramètres. Cela prouve qu’en IA, la « qualité des données » est souvent plus importante que la « taille du modèle ». Un lycéen spécialement formé (modèle de taille moyenne) peut surpasser largement un étudiant universitaire non formé (modèle généraliste de grande taille) dans un domaine spécifique.









