Google宣布Google a annoncé une nouvelle série de mises à jour de fonctionnalités pour son modèle de génération d'images Gemini, améliorant notamment l'édition par l'IA, la cohérence de la génération et la flexibilité. Cette mise à jour, développée par l'équipe DeepMind, est désormais disponible dans l'application Gemini. Google a également souligné que toutes les images générées ou modifiées via Gemini seront accompagnées d'un filigrane numérique visible indiquant clairement leur origine générée par l'IA.
Renforcer la cohérence des rôles et améliorer la précision de l'édition
L’un des points forts de la nouvelle version est qu’elle peut garantir la cohérence des personnages en portrait lors de l’édition continue des images.
Par le passé, lorsque l'IA générait ou modifiait des images à plusieurs reprises, les personnages présentaient souvent des différences de détails, comme des traits du visage, des vêtements ou des proportions incohérents. Le nouveau modèle de Gemini préserve l'authenticité des personnages générés, permettant aux utilisateurs d'insérer plus naturellement leurs propres images dans différentes scènes ou tenues, sans les effets de « changement de visage » liés aux modifications répétées.
Une autre amélioration réside dans l'ajout de la retouche d'image en plusieurs étapes, permettant aux utilisateurs de modifier progressivement des éléments de l'image, par exemple en ajustant d'abord l'arrière-plan, puis en remplaçant des objets spécifiques, sans perdre les modifications précédentes. Gemini peut également combiner deux images pour créer une nouvelle scène ou utiliser des éléments d'images existantes pour créer de nouveaux éléments de design, augmentant ainsi la flexibilité créative.
Comparaison avec d'autres outils de génération d'images
L'évolution de Gemini permet à Google de concurrencer plus directement d'autres outils d'IA générative :
• OpenAI DALL·E 3 :Actuellement, ChatGPT est hautement intégré et prend en charge la conversion de texte en image et l'inpainting. Cependant, le nouveau modèle de Gemini présente un avantage certain en termes de contrôle de la cohérence des caractères, ce qui le rend particulièrement attractif pour les utilisateurs exigeant une création continue.
• Adobe Firefly :Axé sur les créateurs et le secteur du design, Gemini privilégie les licences commerciales d'images générées et intègre des outils comme Photoshop et Illustrator. Bien qu'il ne dispose pas d'un écosystème logiciel professionnel complet, sa capacité à gérer les personnages sur plusieurs scènes en fait une option légère et prometteuse pour accompagner les créateurs.
• Diffusion stable :Connu pour son open source et sa grande personnalisation, Gemini permet aux utilisateurs de réaliser diverses modifications grâce à des modèles locaux ou des plug-ins communautaires. Cependant, pour les utilisateurs plus expérimentés, Gemini s'intègre aux services cloud et Google, offrant une expérience plus conviviale et réduisant la courbe d'apprentissage.
Transparence générée par l'IA et impact futur
Google a souligné que toutes les images générées via Gemini seront automatiquement filigranées numériquement afin de garantir transparence et traçabilité. L'imagerie générative par l'IA étant de plus en plus utilisée dans les médias, la publicité, l'éducation et le divertissement, cette conception répond également aux préoccupations concernant les « deepfakes » et la désinformation.
Les fonctionnalités améliorées de Gemini permettent à Google d'aller au-delà de la simple fourniture d'outils sur le marché de la génération d'images par IA et de réfléchir davantage à la manière de garantir une confiance durable dans les images générées. Alors que ses concurrents se renforcent dans leurs domaines respectifs, Gemini a trouvé sa place dans la cohérence des caractères, la flexibilité d'édition et la transparence. Sa capacité à concurrencer plus directement DALL·E, Firefly et Stable Diffusion à l'avenir constituera une étape importante.
Tableau comparatif des outils de génération et d'édition d'images IA
| Nom de l'outil | 主要 特色 | Fonction d'édition | Dominance | Restrictions/Litige |
| Google Gemini (DeepMind) | Intégration à l'écosystème Google, prise en charge de la génération et de l'édition | – Maintenir la continuité du personnage – Montage multi-segments sans interruption – Synthèse d’images (fusion de plusieurs images) – Conversion de fonctionnalités visuelles |
– L’accent est mis sur la cohérence, en particulier la stabilité des images de caractères – Tout le contenu comporte des filigranes numériques pour une identification facile |
– Les fonctions initiales sont concentrées dans l’application Gemini – Doit encore prouver sa maturité par rapport aux outils de conception professionnels |
| luciole d'adobe | Intégration approfondie avec Photoshop et Illustrator | – Remplissage génératif – Transfert de style – Génération de vecteurs |
– Intégration transparente avec l’écosystème des logiciels de conception – Convient aux designers professionnels |
– Nécessite un abonnement à la suite Adobe, ce qui est coûteux |
| OpenAI DALL·E (actuellement v3) | Intégration profonde avec ChatGPT | – Inpainting (édition par blocs) – Texte en image |
– Faible barrière à l’entrée et fonctionnement conversationnel intuitif – Convient pour une idéation et un storyboard rapides |
– Montage plus génératif, moins flexible et précis que Firefly |
| À mi-parcours | Axé sur la communauté, bon en style artistique | – Réglage rapide et précis – Déformation locale – Résolution améliorée |
– Sens artistique fort et images générées délicates – Partager l’inspiration avec la communauté |
– S’appuie sur le fonctionnement de la plateforme Discord – L’autorisation d’utilisation commerciale nécessite une attention particulière |
| Diffusion stable | Écosystème communautaire open source | – Retouche – ControlNet (contrôle détaillé) – Ajustement fin du modèle |
– Hautement personnalisable, capable de former des modèles dédiés – Pas limité à une seule plateforme |
– Seuil technique élevé – La qualité de génération d’image varie considérablement selon le modèle |








