Dans un contexte de concurrence féroce entre les géants de l'IA pour obtenir des avantages en termes de coût et de vitesse d'inférence, Google a annoncé un nouveau modèle léger."Gemini 3.1 Flash-Lite"Ce modèle de nouvelle génération, axé sur la rapidité et l'efficacité énergétique, est présenté par Google comme l'option la plus performante et la plus économique de la gamme Gemini 3, spécialement conçue pour les charges de travail à haut débit et à grande échelle des développeurs. Grâce à ses performances supérieures et à sa latence ultra-faible par rapport à son prédécesseur, le Gemini 2.5 Flash, le Gemini 3.1 Flash-Lite est prêt à révolutionner la puissance de calcul des applications d'entreprise et du marché des API.
À compter d'aujourd'hui, les développeurs peuvent obtenir la version préliminaire 3.1 Flash-Lite via l'API Gemini de Google AI Studio, et les utilisateurs d'entreprise peuvent également la déployer et l'appliquer simultanément sur la plateforme Vertex AI.
Des prix qui bouleversent le marché et une accélération notable
Dans les applications commerciales, le coût et la latence sont souvent les deux principaux points faibles des développeurs. Gemini 3.1 Flash-Lite a adopté une stratégie tarifaire très agressive :
• Jetons d'entrée :Seulement 0.25 $ par million de jetons.
• Jetons de sortie :Seulement 1.50 $ par million de jetons.
Outre son prix abordable, sa vitesse est son principal atout. Selon les tests de performance d'Artificial Analysis, tout en conservant une qualité de génération égale, voire supérieure, le temps de première injection (TTFT) du Gemini 3.1 Flash-Lite est 2.5 fois plus rapide que celui du 2.5 Flash, et sa vitesse de sortie globale est également augmentée de 45 %.
Google souligne que cette latence ultra-faible est essentielle pour les flux de travail à haute fréquence, ce qui en fait un modèle idéal pour créer des « expériences instantanément réactives ».
Capacités d'inférence inter-niveaux et multimodales
Ne croyez pas qu'un appareil portant le suffixe « Lite » soit moins performant. Sur le site de référence Arena.ai, le Gemini 3.1 Flash-Lite a obtenu l'excellent score de 1432 points.
Plus remarquable encore, dans plusieurs tests de référence évaluant le raisonnement logique et la compréhension multimodale, le Gemini 3.1 Flash-Lite a surpassé ses concurrents de la même catégorie, et même les modèles précédents plus grands (tels que le 2.5 Flash).
L'introduction du contrôle « Niveau de réflexion » permet une gestion flexible des tâches complexes.
Pour permettre aux développeurs de contrôler plus précisément les coûts de calcul, Gemini 3.1 Flash-Lite est livré en standard avec une nouvelle fonctionnalité très pratique dans AI Studio et Vertex AI : « Thinking Levels ».
Ce mécanisme permet aux développeurs d'ajuster avec souplesse le niveau de complexité du modèle en fonction des tâches spécifiques. Face à des tâches volumineuses et extrêmement sensibles aux coûts (comme la traduction de textes massifs ou la modération de contenu), ce niveau peut être abaissé pour optimiser la vitesse ; en revanche, pour des logiques complexes (comme la génération d'interfaces utilisateur, la création d'environnements de simulation ou l'exécution d'instructions complexes en plusieurs étapes), il peut être augmenté afin de garantir la précision. Les premiers testeurs, notamment Latitude, Cartwheel et Whiring, ont constaté que Gemini 3.1 Flash-Lite gère les entrées complexes avec une précision quasi identique à celle des modèles de grande taille et fait preuve d'une remarquable constance dans l'exécution des instructions.



