Microsoft Research Asia a récemment proposéUn modèle d'intelligence artificielle multimodal et génératif automatiquement appelé NUWA-XL, affirmant qu'il peut générer 16 minutes de contenu vidéo avec seulement 11 séries de phrases descriptives.
En 2021, Microsoft Research Asia a proposé le modèle d'intelligence artificielle générative automatique multimodal NUWA (Nuwa), capable de générer du texte, des images et du contenu vidéo à partir de descriptions en langage naturel. La version améliorée NUWA-Infinity, lancée ultérieurement, améliorera encore la résolution des images et des vidéos générées.
Le nouveau NUWA-XL repose sur une architecture opérationnelle de type « diffusion sur diffusion ». Il utilise un modèle de diffusion globale pour générer des images clés sur toute la durée d'une vidéo, et un modèle de diffusion locale pour ajouter du contenu adjacent aux images clés. Cela accélère la génération de contenu tout en garantissant sa continuité et son intégrité.
Le processus global consiste d'abord à générer des scènes clés à partir de la description d'entrée, puis à générer séquentiellement les vidéos correspondantes. Grâce à un modèle de diffusion, la durée du contenu vidéo est augmentée, permettant aux grandes lignes initialement générées de devenir le contenu complet de l'histoire. Lors d'une démonstration, Microsoft a généré automatiquement un nouveau contenu d'animation basé sur l'animation de « Les Pierrafeu ».
Grâce à cette technologie Microsoft, le temps d'inférence moyen pour générer 1024 écrans prenait à l'origine 7.55 minutes, mais il ne prend désormais que 26 secondes, soit une augmentation globale de la vitesse de 94.26 %.
Cependant, Microsoft a expliqué que la génération vidéo nécessite une formation adéquate en contenu vidéo de qualité. La nouvelle version NUWA-XL concerne principalement le processus de production de contenu d'animation professionnel. En générant d'abord des images clés, puis en générant en continu du contenu dérivé de ces images clés, une vidéo d'animation complète est créée, garantissant la continuité et la qualité du contenu, accélérant ainsi la production.




