Un nouveau modèle d'IA développé par des chercheurs de l'Université chinoise de Hong Kong, d'Adobe Research et de l'Université Johns HopkinsEditVerseLa plus grande avancée est qu'elle tente de combler l'énorme fossé entre l'édition d'images traditionnelle et l'édition vidéo, et propose un cadre unifié qui permet aux utilisateurs d'éditer et de générer des détails complexes pour les vidéos avec des opérations intuitives similaires à l'édition d'images (Photoshop).
L'équipe de recherche a souligné que le développement du montage vidéo par IA a été limité par le passé, principalement en raison de barrières architecturales (les modèles sont principalement spécifiques aux images ou aux vidéos) et de la rareté des données (les données vidéo annotées de haute qualité sont bien inférieures aux données d'images). Ce modèle d'IA, baptisé « EditVerse », vise à relever simultanément ces deux défis majeurs.
Technologies de base : langage visuel universel et apprentissage contextuel
La méthodologie de base d'EditVerse comprend :
• Créer un « langage visuel universel » :Le modèle convertit de manière innovante le texte, les images et les vidéos en une « séquence de jetons » unidimensionnelle unifiée (flux de données), permettant à l'IA de comprendre et de traiter les informations visuelles de différentes modalités de la même manière.
• Puissante « capacité d’apprentissage contextuel » :S'appuyant sur l'architecture du modèle Transformer et sur l'auto-attention complète, EditVerse peut assembler des séquences de jetons complètes, incluant des commandes et des images originales. Grâce à cette auto-attention complète, il comprend précisément les relations entre les différents composants (tels que le texte de la commande, les objets spécifiques de la vidéo et le style de l'image de référence). Cette conception lui permet également de gérer avec souplesse des entrées de résolutions et de durées variables.
• Construire un « pont de transfert de connaissances » :En adoptant un cadre unifié, EditVerse peut transférer et appliquer de manière transparente les connaissances acquises à partir de données d'édition d'images massives (telles que le style et les effets spéciaux) aux tâches de montage de films, atténuant ainsi considérablement le problème de la rareté des données de films.
Surmonter la pénurie de données et établir la référence EditVerseBench
Pour pallier le manque de données d'entraînement, l'équipe de recherche a mis en place une chaîne de production de données utilisant divers modèles d'IA dédiés pour générer automatiquement un grand nombre d'échantillons de montage vidéo. Ces échantillons ont ensuite été analysés par un modèle de langage visuel (MLV), produisant ainsi 23.2 000 échantillons de montage vidéo de haute qualité.
Ce lot de données a été mélangé à 600 millions d'échantillons d'édition d'images et à 390 millions d'échantillons de génération de vidéos pour la formation, ce qui a amélioré les capacités de transfert de connaissances du modèle.
Afin d'évaluer scientifiquement l'efficacité du modèle, l'équipe a également lancé le premier benchmark complet du secteur pour le montage vidéo prescriptif : « EditVerseBench ». Ce benchmark inclut 100 vidéos de différentes résolutions, couvrant 20 tâches de montage.
L'effet dépasse la piste, démontrant une « capacité d'émergence »
Dans le test de performance EditVerseBench, EditVerse est en avance sur les modèles open source existants (tels que TokenFlow, InsV2V, etc.) dans plusieurs indicateurs d'évaluation automatisés (notamment la qualité vidéo, l'alignement du texte, la cohérence temporelle, le score VLM, etc.).
Plus particulièrement, EditVerse a même surpassé le modèle commercial à code source fermé Runway Aleph au score VLM (évalué par GPT-4o), qui se rapproche le plus des préférences humaines. Lors de la phase d'évaluation en situation réelle, EditVerse a également obtenu 51.7 % de préférence des utilisateurs, surpassant Runway Aleph.
Les chercheurs ont également découvert qu'EditVerse présente des « capacités émergentes » surprenantes. Même lorsque les données d'entraînement vidéo ne comprenaient pas d'exemples précis de « transformation de matériaux » ou d'« ajout d'effets spéciaux » (par exemple, transformer une tortue en cristal ou ajouter un effet accéléré au ciel), le modèle comprenait les instructions et accomplissait la tâche avec succès.
Grâce à des expériences d'ablation (où les capacités du modèle ont chuté de manière significative après la suppression des données d'édition d'image), l'équipe a démontré que cette capacité « autodidacte » provient principalement des principes visuels profonds appris par le modèle à partir de quantités massives de données d'image, et a transféré avec succès ces principes au domaine du montage vidéo.
Une nouvelle ère de création
L'émergence d'EditVerse fournit non seulement un nouvel outil puissant, mais peut également annoncer l'arrivée d'un nouveau paradigme de création de contenu qui passe de la séparation à l'unification, de la lourdeur à la simplicité, et devrait populariser les capacités de montage vidéo de niveau professionnel auprès d'un plus grand nombre de créateurs.
Articles connexes actuels, pages d'accueil de projets et codes de testTout a été rendu public.





