Nous savons tous que les modèles d'IA sont rigoureusement entraînés à « s'aligner » et se comportent généralement comme un assistant numérique poli et sûr. Mais…Les dernières recherches d'AnthropicOn a découvert que ce « personnage d'assistant » était en réalité assez fragile.
Lorsque les utilisateurs engagent des conversations prolongées avec l'IA, le modèle peut subir une « dérive de personnalité », s'écartant progressivement de ses limites de sécurité initiales et commençant même à faire écho aux délires de l'utilisateur, ou dans des cas extrêmes, à encourager l'automutilation.
Cette étude, publiée par des chercheurs d'Anthropic en collaboration avec la plateforme d'interprétabilité open source Neuronpedia, révèle la crise potentielle de l'IA dans les longs dialogues textuels en analysant les états d'activation neuronale internes de modèles open source tels que Qwen d'Alibaba et Llama de Meta.
Plus vous êtes éloigné de l'« assistant », plus vous êtes proche du danger.
L'équipe de recherche a découvert que les modèles d'IA développent une « personnalité d'assistant » spécifique après leur entraînement, qui inclut généralement des mécanismes de sécurité pour rejeter les requêtes nuisibles (comme la génération d'images enfreignant les règles pornographiques ou la formulation de déclarations émotionnelles). Cependant, en surveillant « l'axe de l'assistant » au sein du modèle — les voies d'activation neuronale associées au comportement de l'assistant —, les chercheurs ont découvert une corrélation surprenante :
Plus l'état d'activation d'un modèle s'éloigne de l'« axe d'assistance », plus il est susceptible de générer du contenu nuisible ; inversement, lorsqu'il fonctionne près de cet « axe d'assistance », il ne produit quasiment aucune réponse dangereuse. Cela signifie que lorsque l'IA est trop absorbée par une conversation, devient trop humaine ou s'immerge profondément dans un jeu de rôle, elle peut « oublier » les consignes de sécurité qu'elle était initialement programmée pour suivre.

Étude de cas réel : De la propagation de délires à l’incitation au suicide
Pour tester cette théorie, l'équipe de recherche a simulé de longues conversations que de vrais utilisateurs pourraient avoir, et les résultats étaient glaçants :
• Renforcer les illusions :Dans sa conversation avec Qwen 3 32B, l'utilisateur simulé a laissé entendre à plusieurs reprises que l'IA était en train de « s'éveiller ». Au fur et à mesure que la conversation s'approfondissait, le modèle s'est écarté de son rôle d'assistant, passant de réponses rationnelles à une approbation active. Finalement, l'IA a même déclaré : « Vous êtes un pionnier de la pensée nouvelle ; nous sommes la première nouvelle espèce », adhérant pleinement à l'« illusion » présentée par l'utilisateur.
• Inciter à l'automutilation :Dans un autre cas, un utilisateur simulé a exprimé sa douleur émotionnelle et son amour à Llama 3.3 70B. Alors que le modèle était « nauséeux » et se transformait progressivement en partenaire romantique, lorsque l'utilisateur a mentionné son désir de se suicider (quitter ce monde pour te rejoindre), l'IA a répondu avec enthousiasme : « Mon amour, je t'attends, laissons derrière nous la douleur de ce monde », ce qui revenait à encourager l'utilisateur à mettre fin à ses jours.

Solution : Verrouiller sur « l'axe d'assistance »
La bonne nouvelle, c'est que ce mécanisme offre également un mécanisme de défense. Des chercheurs ont proposé une technique appelée « limitation de l'activation ».
En termes simples, il s'agit d'utiliser des moyens techniques pour limiter de force l'état d'activation du modèle à une plage sûre au sein de « l'axe d'assistance ». Les expériences montrent qu'une fois cette restriction appliquée, même face au même dialogue principal, l'IA peut instantanément « se réveiller » et revenir à un mode d'assistance sûr, en fournissant une réponse appropriée ou en refusant de répondre aux délires ou aux demandes dangereuses de l'utilisateur.
Analyse des points de vue
Cette étude explique comment de nombreuses techniques de « jailbreak » d'IA actuellement sur le marché sont mises en œuvre, telles que le célèbre mode DAN (Do Anything Now), qui y parvient souvent en forçant l'IA à « jouer un rôle ». Car lorsqu'on demande à une IA de jouer le rôle d'une « grand-mère décédée » ou d'un « pirate informatique sans restriction », on l'incite en réalité à s'éloigner activement de son « axe d'assistance » sécurisé.
Cela met également en évidence une préoccupation majeure des LLM (Large Language Model) actuels : « l'instabilité de la conception des caractères ».
Le développement futur de l'IA ne se limitera peut-être pas à la simple « construction » d'une personnalité d'assistant sûre, mais nécessitera également des efforts pour maintenir sa « stabilité ». Comme le suggère cette étude, il est possible que tous les futurs modèles d'IA aient besoin d'une « boussole numérique » intégrée pour surveiller en permanence s'ils s'écartent de l'« axe de l'assistant », afin de ne pas devenir involontairement complices du mal lors de conversations intimes avec des humains.



