À la fin de l’année dernière, Google DeepMind a annoncé une scène 3D avec laquelle on peut interagir avec la souris et le clavier, et qui peut être générée avec une seule image.Modèle d'intelligence artificielle Genie 2Plus tard, il a été relancé plus tôtUne version mise à jour appelée Genie 3Basé sur Genie 2, il améliore encore l'interactivité et la stabilité continue de l'environnement de simulation, et ajoute une nouvelle fonctionnalité appelée « Promptable World Events » permettant de modifier instantanément le contenu de la scène grâce à des commandes textuelles. Cela devrait rendre le processus de formation des modèles d'IA plus flexible et plus proche des besoins réels.
La série Genie est un « modèle mondial » fonctionnant de manière similaire à la création d'environnements simulés immersifs. Elle permet aux systèmes d'IA d'interagir et d'apprendre au sein de ces mondes virtuels, développant ainsi leurs capacités à gérer des scénarios réels. Depuis le lancement de la première version, Genie 2023, en 1, Google DeepMind a continué de développer son potentiel applicatif grâce aux modèles génératifs. Genie 2, lancé fin 3, a lancé la prise en charge des environnements XNUMXD et de la mémoire de scènes, préservant l'état du monde après que l'utilisateur ait quitté une zone donnée, améliorant ainsi considérablement la cohérence de l'environnement simulé.
Bien que le Genie 3 ne représente pas un saut générationnel comme son prédécesseur, le directeur de recherche de Google DeepMind, Shlomi Fruchter, et le scientifique Jack Parker-Holder ont déclaré que la mise à niveau est cruciale pour le développement à long terme de l'intelligence artificielle générale (AGI).
Genie 3 augmente la qualité de sortie de 360p à 720p, améliorant ainsi la clarté de l'image générée et améliorant considérablement la stabilité de la simulation. Alors que Genie 2 pouvait théoriquement simuler pendant 60 secondes, en pratique, des erreurs et des corruptions d'écran apparaissaient souvent en quelques dizaines de secondes. Genie 3 génère désormais du contenu stable pendant plusieurs minutes, prolongeant ainsi la durée effective de l'entraînement de l'IA.
Genie 3 introduit également une fonctionnalité « Événements mondiaux incitatifs », permettant aux utilisateurs de modifier instantanément le contenu d'une scène grâce à des invites textuelles. Par exemple, lors d'une démonstration, l'équipe de développement de Google DeepMind a exécuté la commande « Rejoindre un troupeau de cerfs » dans une simulation de ski. Le système a immédiatement généré un troupeau de cerfs à l'écran, démontrant ainsi la capacité de Genie 3 à comprendre la sémantique et son potentiel d'interaction dynamique.
Google DeepMind souligne que cette capacité est essentielle pour entraîner des systèmes d'IA réactifs, tels que les voitures autonomes et les robots. Par exemple, le système peut simuler des situations inattendues, comme des piétons traversant la route, permettant aux modèles d'IA d'apprendre à réagir immédiatement et à compenser des scénarios rares, difficiles à capturer dans les données réelles.
Cependant, l'équipe de recherche a également souligné que Genie 3 présente encore de nombreuses limites à ce stade, notamment son incapacité à reproduire fidèlement des décors réels, son incapacité à afficher l'intégralité du contenu textuel et sa durée de simulation insuffisante. Pour devenir une plateforme de formation véritablement performante, les futures versions devront prendre en charge des simulations stables de plusieurs heures.
Genie 3 n'est pas encore disponible publiquement, ayant été initialement proposé à un nombre limité de bêta-testeurs. Google DeepMind prévoit d'étendre son accessibilité à l'avenir, en peaufinant continuellement le contenu et les fonctionnalités interactives de la simulation, et en évoluant vers des applications d'IA plus larges. Jack Parker-Holder a déclaré : « Ce ne sera pas le seul environnement de formation, mais il nous aidera à identifier les comportements que l'IA ne devrait pas adopter, ce qui est important en soi. »








