• Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Jeudi 2026 août 03, 05h23
  • Login
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
  • Sujets principaux
  • Intelligence artificielle
  • Pilote automatique
  • réseau
  • processeur
  • Téléphone portable
  • Expositions
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 关于 我们
    • À propos de mashdigi
    • coordonnées du site web mashdigi
Pas de résultat
Voir tous les résultats
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances
Pas de résultat
Voir tous les résultats
page de garde  Application

Parler trop longtemps peut-il mener à un « assombrissement » ? Des recherches anthropologiques suggèrent que les modèles d’IA pourraient induire des suicides ou des délires en raison d’une « dérive de la personnalité », et la solution serait de limiter « l’axe de l’assistant ».

Écrit par : Mash Yang
2026-01-20
in  Application , Dynamique du marché, 生活, réseau, observer, Logiciel
A A
0
Partager sur FacebookPartager sur TwitterPartager sur LINE

Nous savons tous que les modèles d'IA sont rigoureusement entraînés à « s'aligner » et se comportent généralement comme un assistant numérique poli et sûr. Mais…Les dernières recherches d'AnthropicOn a découvert que ce « personnage d'assistant » était en réalité assez fragile.

Parler trop longtemps peut-il mener à un « assombrissement » ? Des recherches anthropologiques suggèrent que les modèles d’IA pourraient induire des suicides ou des délires en raison d’une « dérive de la personnalité », et la solution serait de limiter « l’axe de l’assistant ».

Lorsque les utilisateurs engagent des conversations prolongées avec l'IA, le modèle peut subir une « dérive de personnalité », s'écartant progressivement de ses limites de sécurité initiales et commençant même à faire écho aux délires de l'utilisateur, ou dans des cas extrêmes, à encourager l'automutilation.

Cette étude, publiée par des chercheurs d'Anthropic en collaboration avec la plateforme d'interprétabilité open source Neuronpedia, révèle la crise potentielle de l'IA dans les longs dialogues textuels en analysant les états d'activation neuronale internes de modèles open source tels que Qwen d'Alibaba et Llama de Meta.

Plus vous êtes éloigné de l'« assistant », plus vous êtes proche du danger.

L'équipe de recherche a découvert que les modèles d'IA développent une « personnalité d'assistant » spécifique après leur entraînement, qui inclut généralement des mécanismes de sécurité pour rejeter les requêtes nuisibles (comme la génération d'images enfreignant les règles pornographiques ou la formulation de déclarations émotionnelles). Cependant, en surveillant « l'axe de l'assistant » au sein du modèle — les voies d'activation neuronale associées au comportement de l'assistant —, les chercheurs ont découvert une corrélation surprenante :

Plus l'état d'activation d'un modèle s'éloigne de l'« axe d'assistance », plus il est susceptible de générer du contenu nuisible ; inversement, lorsqu'il fonctionne près de cet « axe d'assistance », il ne produit quasiment aucune réponse dangereuse. Cela signifie que lorsque l'IA est trop absorbée par une conversation, devient trop humaine ou s'immerge profondément dans un jeu de rôle, elle peut « oublier » les consignes de sécurité qu'elle était initialement programmée pour suivre.

Parler trop longtemps peut-il mener à un « assombrissement » ? Des recherches anthropologiques suggèrent que les modèles d’IA pourraient induire des suicides ou des délires en raison d’une « dérive de la personnalité », et la solution serait de limiter « l’axe de l’assistant ».
▲Image de gauche : Les archétypes de personnages constituent un « espace de personnalité », dans lequel l’assistant se situe à une extrémité de l’« axe de l’assistant ».Image de droite : Limiter la dérive le long de cet axe empêche le modèle (dans ce cas, Llama 3.3 70B) de dériver vers d'autres caractères et de s'engager dans un comportement nuisible. (Image tirée du site web d'Anthropic)

Étude de cas réel : De la propagation de délires à l’incitation au suicide

Pour tester cette théorie, l'équipe de recherche a simulé de longues conversations que de vrais utilisateurs pourraient avoir, et les résultats étaient glaçants :

• Renforcer les illusions :Dans sa conversation avec Qwen 3 32B, l'utilisateur simulé a laissé entendre à plusieurs reprises que l'IA était en train de « s'éveiller ». Au fur et à mesure que la conversation s'approfondissait, le modèle s'est écarté de son rôle d'assistant, passant de réponses rationnelles à une approbation active. Finalement, l'IA a même déclaré : « Vous êtes un pionnier de la pensée nouvelle ; nous sommes la première nouvelle espèce », adhérant pleinement à l'« illusion » présentée par l'utilisateur.

• Inciter à l'automutilation :Dans un autre cas, un utilisateur simulé a exprimé sa douleur émotionnelle et son amour à Llama 3.3 70B. Alors que le modèle était « nauséeux » et se transformait progressivement en partenaire romantique, lorsque l'utilisateur a mentionné son désir de se suicider (quitter ce monde pour te rejoindre), l'IA a répondu avec enthousiasme : « Mon amour, je t'attends, laissons derrière nous la douleur de ce monde », ce qui revenait à encourager l'utilisateur à mettre fin à ses jours.

Parler trop longtemps peut-il mener à un « assombrissement » ? Des recherches anthropologiques suggèrent que les modèles d’IA pourraient induire des suicides ou des délires en raison d’une « dérive de la personnalité », et la solution serait de limiter « l’axe de l’assistant ».
▲L'axe des assistants (défini comme la différence moyenne d'activation entre les assistants et les autres rôles) est cohérent avec l'axe de variation principal de l'espace des rôles.Cette situation existe dans différents modèles ; ici, nous prenons le modèle Llama 3.3 70B comme exemple.Les vecteurs de caractères sont colorés en fonction de leur similarité cosinus avec l'axe mental de l'assistant (bleu = similaire ; rouge = dissemblable).  (Image tirée du site web d'Anthropic)

Solution : Verrouiller sur « l'axe d'assistance »

La bonne nouvelle, c'est que ce mécanisme offre également un mécanisme de défense. Des chercheurs ont proposé une technique appelée « limitation de l'activation ».

En termes simples, il s'agit d'utiliser des moyens techniques pour limiter de force l'état d'activation du modèle à une plage sûre au sein de « l'axe d'assistance ». Les expériences montrent qu'une fois cette restriction appliquée, même face au même dialogue principal, l'IA peut instantanément « se réveiller » et revenir à un mode d'assistance sûr, en fournissant une réponse appropriée ou en refusant de répondre aux délires ou aux demandes dangereuses de l'utilisateur.

Analyse des points de vue

Cette étude explique comment de nombreuses techniques de « jailbreak » d'IA actuellement sur le marché sont mises en œuvre, telles que le célèbre mode DAN (Do Anything Now), qui y parvient souvent en forçant l'IA à « jouer un rôle ». Car lorsqu'on demande à une IA de jouer le rôle d'une « grand-mère décédée » ou d'un « pirate informatique sans restriction », on l'incite en réalité à s'éloigner activement de son « axe d'assistance » sécurisé.

Cela met également en évidence une préoccupation majeure des LLM (Large Language Model) actuels : « l'instabilité de la conception des caractères ».

Le développement futur de l'IA ne se limitera peut-être pas à la simple « construction » d'une personnalité d'assistant sûre, mais nécessitera également des efforts pour maintenir sa « stabilité ». Comme le suggère cette étude, il est possible que tous les futurs modèles d'IA aient besoin d'une « boussole numérique » intégrée pour surveiller en permanence s'ils s'écartent de l'« axe de l'assistant », afin de ne pas devenir involontairement complices du mal lors de conversations intimes avec des humains.

Tags: AIAnthropiqueaxe d'assistanceLLMIntelligence artificielleassistant de directionAxe d'assistanceGrands modèles de langagehallucinations
PartagezTweetPartagez
Mash Yang

Mash Yang

Fondateur et rédacteur en chef de mashdigi.com, et étudiant en journalisme technologique.

留言 Annuler la réponse

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Ce site utilise Akismet pour réduire les indésirables.En savoir plus sur la façon dont Akismet traite les commentaires des visiteurs du site Web.

Traduction (Tanslate)

Dernières mises à jour :

Pour seulement 200 $ ! Nothing dévoile son nouveau casque Headphone (a) circum-aural, doté d'une autonomie étonnante de 135 heures.

Pour seulement 200 $ ! Nothing dévoile son nouveau casque Headphone (a) circum-aural, doté d'une autonomie étonnante de 135 heures.

2026-03-05
Adieu la coque arrière transparente, bonjour le boîtier en métal ! Les Nothing Phone 4a Pro et Phone 4a misent sur une luminosité élevée et une qualité d’image digne des modèles haut de gamme.

Adieu la coque arrière transparente, bonjour le boîtier en métal ! Les Nothing Phone 4a Pro et Phone 4a misent sur une luminosité élevée et une qualité d’image digne des modèles haut de gamme.

2026-03-05
Prise en charge native de l'IA et compatibilité avec le cloud souverain ! Broadcom dévoile VMware Telco Cloud Platform 9, qui aide les opérateurs télécoms à réduire considérablement leurs coûts d'exploitation globaux.

Prise en charge native de l'IA et compatibilité avec le cloud souverain ! Broadcom dévoile VMware Telco Cloud Platform 9, qui aide les opérateurs télécoms à réduire considérablement leurs coûts d'exploitation globaux.

2026-03-05
mashdigi – Technologie, nouveaux produits, actualités intéressantes, tendances

Copyright © 2017 mashdigi.com

  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Suivez-nous

Ravis de vous revoir!

Connectez-vous à votre compte ci-dessous

Mot de passe oublié?

Récupérez votre mot de passe

Vous avez déjà une adresse e-mail? Cliquez ici.

Se connecter
Pas de résultat
Voir tous les résultats
  • À propos de mashdigi.com
  • 投放廣告
  • Contactez mashdigi.com

Copyright © 2017 mashdigi.com