Face à la prolifération des applications d'IA générative, le problème des « hallucinations » des grands modèles de langage (GML) – c'est-à-dire des IA produisant des réponses incohérentes – demeure un point névralgique que l'industrie s'efforce de résoudre. Afin de quantifier plus précisément le degré de fiabilité de l'IA, Google, en collaboration avec ses équipes Google DeepMind, Google Cloud et Kaggle, a publié une suite d'algorithmes appelée FACTS (Factuality Assessment for Contemporary Text Synthesis).Nouvelle référence d'évaluation.
Ce test de référence, considéré comme le test ultime de l'authenticité de l'IA, évalue non seulement les réponses à de simples questions-réponses, mais aussi la compréhension d'images et l'utilisation d'outils. Il est à noter que même le Gemini 3 Pro, doté des spécifications les plus performantes à ce jour, n'a atteint qu'une précision moyenne d'environ 69 % à ce test, ce qui indique que l'IA a encore un long chemin à parcourir avant d'être totalement fiable.
Quatre défis majeurs : non seulement vous devez être capable de répondre, mais vous devez aussi « savoir ce que vous savez ».
Contrairement aux tests traditionnels qui ne ciblent que la génération de texte, le benchmark FACTS se compose de quatre sous-tests ciblant différentes capacités, ressemblant à un bilan complet de l'IA :
• M-FACTS (Tests multimodaux) :Ce test évalue la capacité de l'IA à « voir » et à combiner les connaissances. Par exemple, si on lui présente la photo d'un modèle de train spécifique, elle devrait non seulement pouvoir identifier le modèle, mais aussi répondre à des questions portant sur des informations plus détaillées, comme l'année de fabrication, et non se contenter de décrire l'apparence de l'image.
• P-FACTS (Tests paramétriques) :Il s'agit d'un test surprise. L'IA doit répondre hors ligne à des questions difficiles, en s'appuyant uniquement sur sa base de connaissances intégrée issue de son entraînement. Google utilise spécifiquement un « filtrage adverse », ne conservant que les questions auxquelles les modèles existants sont susceptibles de répondre incorrectement, ce qui garantit leur pouvoir de discrimination.
• S-FACTS (Tests de recherche) :Simuler les capacités d'une IA en tant qu'agent. L'IA doit être capable de résoudre des problèmes complexes (par exemple : « Quel a été le premier film réalisé par un scénariste ? »), d'effectuer de multiples recherches et d'intégrer des informations.
• D-FACTS (Test de compréhension de documents) :Testez la « fidélité » de l'IA. À partir d'un document, l'IA doit répondre strictement en fonction de son contenu et il lui est formellement interdit d'y ajouter des informations non mentionnées.
Résultats des tests : Gemini 3 Pro l’emporte de justesse ; GPT-5 fait preuve d’une « ignorance sincère ».
Après la mise en œuvre d'un double mécanisme d'évaluation automatique (avec des juges IA vérifiant la couverture et les contradictions des faits essentiels), les résultats des tests montrent que même les meilleurs modèles actuellement sur le marché ont encore un taux d'erreur d'environ 30 %.
Le Gemini 3 Pro de Google arrive en tête de liste avec une précision de 68.8 %, suivi du Gemini 2.5 Pro (62.1 %) et du GPT-5 d'OpenAI (61.8 %).
Il est intéressant de noter que les tests ont révélé des différences dans la « personnalité » des différents modèles. La série Gemini tend à fournir des informations détaillées (privilégiant la quantité), ce qui peut parfois entraîner des inexactitudes lors de tests multimodaux. Les séries GPT-5 et Claude, quant à elles, adoptent une approche axée sur la précision, allant jusqu'à admettre leur ignorance ou à refuser de répondre aux questions incertaines. Cette « ignorance sincère » peut s'avérer plus précieuse qu'une réponse forcée dans certaines situations professionnelles.
Analyse et perspectives : Établir un « indice de confiance » pour l’IA
À mon avis, l'importance stratégique du lancement par Google du benchmark FACTS à ce moment précis réside dans la redéfinition des règles de la compétition en IA.
Ces deux dernières années, les grandes entreprises se sont surtout fait concurrence sur la taille des paramètres des modèles, la vitesse de génération ou l'étendue des applications multimodales. Cependant, à mesure que l'IA s'intègre à des domaines clés comme la santé, le droit et la prise de décision en entreprise, la précision et la crédibilité deviendront les facteurs de succès de la prochaine étape.
L'émergence du benchmark FACTS équivaut à établir une norme de sécurité plus rigoureuse pour le secteur de l'IA. Bien qu'un taux de précision de 69 % puisse paraître faible, il reflète fidèlement le fait que LLM reste fondamentalement un modèle probabiliste.
Pour les développeurs, cela offre une orientation claire en matière d'optimisation (comme l'amélioration des stratégies de recherche ou le renforcement des mécanismes de rejet) ; pour les utilisateurs, à l'avenir, lorsqu'ils choisiront des outils d'IA, en plus de considérer leur « qualité en matière d'écriture », ils devront également s'intéresser à leur « honnêteté ».




