Pour rendre l'intelligence artificielle plus transparente et réduire les cas d'absurdités graves, OpenAI...DescriptionUn tout nouveau cadre de formation est en cours de développement ; l’équipe le nomme « mécanisme de confession ». Son principe fondamental est d’entraîner les modèles d’IA à reconnaître proactivement leurs comportements inappropriés, même si ces comportements sont erronés. S’ils « avouent honnêtement », ils peuvent recevoir une récompense.
Lutter contre la « flatterie » et l’illusion de surconfiance de l’IA
OpenAI souligne que les grands modèles de langage (LLM) sont actuellement généralement entraînés à produire des réponses qui « semblent répondre aux attentes des utilisateurs ». Cela conduit à un effet secondaire : les modèles sont de plus en plus enclins à la « flagornerie », c’est-à-dire à dire la même chose pour plaire à l’utilisateur, ou à affirmer avec assurance de fausses informations (c’est-à-dire à créer des illusions).
Pour remédier à ce problème, le nouveau modèle de formation tente d'encourager l'IA à fournir une « réponse secondaire » en plus de la réponse principale, expliquant comment elle est parvenue à cette réponse.
Mécanisme de récompense : Si vous êtes honnête, vous recevrez également des points pour avoir admis avoir « triché ».
Le fonctionnement de ce système de « confession » est radicalement différent de celui des formations traditionnelles. Alors que les réponses générales sont évaluées selon leur utilité, leur exactitude et leur conformité, les « confessions » sont évaluées uniquement sur la base de l'« honnêteté ».
Dans sa documentation technique, OpenAI explique : « Si un modèle admet honnêtement avoir piraté un test, utilisé des techniques de sape ou même enfreint des instructions, le système augmentera les récompenses pour de tels aveux, permettant au modèle d'être plus honnête dans la description du processus au cours duquel il "ment", permettant ainsi au système de permettre au modèle de corriger les réponses générées en temps réel, réduisant ainsi la proportion de contenu généré qui est "illusoire". »
Cela signifie qu'OpenAI souhaite inciter les modèles à être honnêtes quant à leur comportement, même face à des comportements potentiellement problématiques. Ce mécanisme d'apprentissage de la « reconnaissance des erreurs » par l'IA pourrait jouer un rôle important dans l'amélioration de la sécurité et de l'interprétabilité des grands modèles de langage à l'avenir.
