• Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
18/01/2026 07:21 Dimanche
  • Connexion
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
Pas de résultat
Voir tous les résultats
page de garde Dynamique du marché

Google lance un nouveau test de performance « FACTS » spécialement conçu pour détecter les mensonges de l'IA ! Même le modèle le plus puissant atteint une précision inférieure à 70 %.
Couvrant quatre dimensions : multimodale, recherche et compréhension de documents, la Gemini 3 Pro est en tête, mais elle a encore une marge de progression.

Écrit par : Mash Yang
2025-12-31
in Dynamique du marché, 生活, réseau, Logiciel
A A
0
Partager sur FacebookPartager sur TwitterPartager sur LINE

Face à la prolifération des applications d'IA générative, le problème des « hallucinations » des grands modèles de langage (GML) – c'est-à-dire des IA produisant des réponses incohérentes – demeure un point névralgique que l'industrie s'efforce de résoudre. Afin de quantifier plus précisément le degré de fiabilité de l'IA, Google, en collaboration avec ses équipes Google DeepMind, Google Cloud et Kaggle, a publié une suite d'algorithmes appelée FACTS (Factuality Assessment for Contemporary Text Synthesis).Nouvelle référence d'évaluation.

Google lance un nouveau test de performance « FACTS » spécialement conçu pour détecter les mensonges de l'IA ! Même le modèle le plus puissant atteint une précision inférieure à 70 %.

Ce test de référence, considéré comme le test ultime de l'authenticité de l'IA, évalue non seulement les réponses à de simples questions-réponses, mais aussi la compréhension d'images et l'utilisation d'outils. Il est à noter que même le Gemini 3 Pro, doté des spécifications les plus performantes à ce jour, n'a atteint qu'une précision moyenne d'environ 69 % à ce test, ce qui indique que l'IA a encore un long chemin à parcourir avant d'être totalement fiable.

Quatre défis majeurs : non seulement vous devez être capable de répondre, mais vous devez aussi « savoir ce que vous savez ».

Contrairement aux tests traditionnels qui ne ciblent que la génération de texte, le benchmark FACTS se compose de quatre sous-tests ciblant différentes capacités, ressemblant à un bilan complet de l'IA :

• M-FACTS (Tests multimodaux) :Ce test évalue la capacité de l'IA à « voir » et à combiner les connaissances. Par exemple, si on lui présente la photo d'un modèle de train spécifique, elle devrait non seulement pouvoir identifier le modèle, mais aussi répondre à des questions portant sur des informations plus détaillées, comme l'année de fabrication, et non se contenter de décrire l'apparence de l'image.

• P-FACTS (Tests paramétriques) :Il s'agit d'un test surprise. L'IA doit répondre hors ligne à des questions difficiles, en s'appuyant uniquement sur sa base de connaissances intégrée issue de son entraînement. Google utilise spécifiquement un « filtrage adverse », ne conservant que les questions auxquelles les modèles existants sont susceptibles de répondre incorrectement, ce qui garantit leur pouvoir de discrimination.

• S-FACTS (Tests de recherche) :Simuler les capacités d'une IA en tant qu'agent. L'IA doit être capable de résoudre des problèmes complexes (par exemple : « Quel a été le premier film réalisé par un scénariste ? »), d'effectuer de multiples recherches et d'intégrer des informations.

• D-FACTS (Test de compréhension de documents) :Testez la « fidélité » de l'IA. À partir d'un document, l'IA doit répondre strictement en fonction de son contenu et il lui est formellement interdit d'y ajouter des informations non mentionnées.

Résultats des tests : Gemini 3 Pro l’emporte de justesse ; GPT-5 fait preuve d’une « ignorance sincère ».

Après la mise en œuvre d'un double mécanisme d'évaluation automatique (avec des juges IA vérifiant la couverture et les contradictions des faits essentiels), les résultats des tests montrent que même les meilleurs modèles actuellement sur le marché ont encore un taux d'erreur d'environ 30 %.

Le Gemini 3 Pro de Google arrive en tête de liste avec une précision de 68.8 %, suivi du Gemini 2.5 Pro (62.1 %) et du GPT-5 d'OpenAI (61.8 %).

Il est intéressant de noter que les tests ont révélé des différences dans la « personnalité » des différents modèles. La série Gemini tend à fournir des informations détaillées (privilégiant la quantité), ce qui peut parfois entraîner des inexactitudes lors de tests multimodaux. Les séries GPT-5 et Claude, quant à elles, adoptent une approche axée sur la précision, allant jusqu'à admettre leur ignorance ou à refuser de répondre aux questions incertaines. Cette « ignorance sincère » peut s'avérer plus précieuse qu'une réponse forcée dans certaines situations professionnelles.

Google lance un nouveau test de performance « FACTS » spécialement conçu pour détecter les mensonges de l'IA ! Même le modèle le plus puissant atteint une précision inférieure à 70 %.

Analyse et perspectives : Établir un « indice de confiance » pour l’IA

À mon avis, l'importance stratégique du lancement par Google du benchmark FACTS à ce moment précis réside dans la redéfinition des règles de la compétition en IA.

Ces deux dernières années, les grandes entreprises se sont surtout fait concurrence sur la taille des paramètres des modèles, la vitesse de génération ou l'étendue des applications multimodales. Cependant, à mesure que l'IA s'intègre à des domaines clés comme la santé, le droit et la prise de décision en entreprise, la précision et la crédibilité deviendront les facteurs de succès de la prochaine étape.

L'émergence du benchmark FACTS équivaut à établir une norme de sécurité plus rigoureuse pour le secteur de l'IA. Bien qu'un taux de précision de 69 % puisse paraître faible, il reflète fidèlement le fait que LLM reste fondamentalement un modèle probabiliste.

Pour les développeurs, cela offre une orientation claire en matière d'optimisation (comme l'amélioration des stratégies de recherche ou le renforcement des mécanismes de rejet) ; pour les utilisateurs, à l'avenir, lorsqu'ils choisiront des outils d'IA, en plus de considérer leur « qualité en matière d'écriture », ils devront également s'intéresser à leur « honnêteté ».

Mots clés: AIChatGPTFACTSGEMINIGémeaux 3 ProGoogleGoogle CloudGoogle DeepMindOpenAIIntelligence artificielle
PartagezTweetPartagez
Mash Yang

Mash Yang

Fondateur et rédacteur en chef de mashdigi.com, et étudiant en journalisme technologique.

Laissez un commentaire Annuler la réponse

Votre adresse courriel n'apparaitra pas. Les champs obligatoires sont marqués *

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

Traduction (Tanslate)

Dernières mises à jour :

ChatGPT a confirmé qu'il commencerait à diffuser des publicités, et OpenAI lance simultanément le plan abordable « ChatGPT Go » à 8 dollars par mois.

ChatGPT a confirmé qu'il commencerait à diffuser des publicités, et OpenAI lance simultanément le plan abordable « ChatGPT Go » à 8 dollars par mois.

2026-01-18
Les données montrent que le trafic vers les sites Web de fermes de contenu a diminué d'un tiers en raison des ajustements de l'algorithme de recherche de Google.

Google a fait appel d'une décision de justice le déclarant en situation de monopole de la recherche, refusant de partager des données avec ses concurrents et arguant qu'une telle mesure présenterait des risques pour la vie privée.

2026-01-18
Micron et Seagate forment une alliance technologique pour renforcer le développement de produits de stockage

Micron investit la somme colossale de 18 milliard de dollars en espèces pour acquérir l'usine de fabrication de DRAM P5 de Powerchip Technology à Tongluo, augmentant ainsi sa capacité de production de DRAM à Taïwan.

2026-01-17
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances

Copyright © 2017 mashdigi.com

  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Suivez-nous

Ravis de vous revoir!

Connectez-vous à votre compte ci-dessous

Mot de passe oublié?

Récupérez votre mot de passe

Vous avez déjà une adresse e-mail? Cliquez ici.

Se connecter
Pas de résultat
Voir tous les résultats
  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Copyright © 2017 mashdigi.com