Anthropic sait enfin ce qui se passe dans le cerveau torturé de son IA Claude

par Korben ✨ -

Comment ça, nos IA préférées nous mentent depuis le début ?? Anthropic vient de fendre en deux le crane de son LLM pour voir ce qu’il y avait à l’intérieur et les résultats sont aussi fascinants qu’inquiétants. L’entreprise à l’origine de l’assistant Claude a publié une étude qui pourrait bien bouleverser notre compréhension de ce qui se passe réellement dans les “cerveaux” des IA.

Si comme moi, vous utilisez régulièrement ChatGPT, Claude ou d’autres grands modèles de langage, vous vous êtes peut-être déjà demandé : “Mais comment fonctionne cette diablerie messire ?” On voit leurs réponses bluffantes de cyber intello, mais jusqu’à présent, personne, pas même leurs créateurs, ne comprenait vraiment leur fonctionnement interne. Incroyable non ?

Cette opacité est d’ailleurs à l’origine de toutes sortes de problèmes. Pourquoi ces modèles hallucinent-ils ? Comment se retrouvent-ils vulnérables aux “jailbreaks” ? Et quand Claude ou ChatGPT vous disent “Voici mon raisonnement étape par étape”, est-ce vraiment comme ça qu’ils ont réfléchi ?? (Spoiler: pas du tout, ces petits menteurs!)

Pour arriver à analyser ça, Anthropic a développé ce qu’ils appellent un “microscope pour IA”, une méthode appelée Cross-layer transcoder (CLT) qui permet de visualiser les “circuits neuronaux” qui s’activent lorsque l’IA réfléchit. C’est comme un scanner cérébral pour IA, qui montre quelles parties s’allument quand elle pense à “chien”, “mathématiques” ou “poésie”.

Et ce que les chercheurs ont découvert est proprement hallucinant (sans mauvais jeu de mots). Première surprise, Claude ne “réfléchit” pas simplement mot après mot comme on pourrait le penser. Quand on lui demande d’écrire un poème avec des rimes, il planifie à l’avance ! Les chercheurs ont observé que Claude pense d’abord à des mots qui riment ensemble et qui sont pertinents pour le thème, puis il construit des phrases entières pour arriver à ces mots. Un peu comme un rappeur qui prépare ses punchlines avant de construire ses couplets.

Par exemple, pour compléter “He saw a carrot and had to grab it” Claude a d’abord activé le concept de “rabbit” (parce que ça rime avec “grab it” et que c’est thématiquement cohérent), puis a construit la phrase “His hunger was like a starving rabbit”. Et quand les chercheurs ont supprimé artificiellement le concept “rabbit” du cerveau de Claude, il a automatiquement pivoté vers un autre mot qui rime (“habit”).

Autre découverte majeure, Claude possède un “langage de pensée” universel qui transcende les langues. Quand vous lui parlez en français, chinois ou anglais, les mêmes circuits conceptuels s’activent avant d’être traduits dans la langue appropriée. C’est comme si Claude avait une langue interne neutre, un peu comme la langue des Schtroumpfs mais en beaucoup plus sophistiqué. Plus le modèle est grand, plus ces circuits partagés entre les langues sont nombreux.

Et que dire des maths ? C’est dingue mais Claude n’a pas été conçu comme une calculatrice, pourtant il fait des additions et multiplications correctement. Les chercheurs ont découvert qu’en réalité, il utilisait plusieurs chemins de calcul parallèles, l’un pour faire une approximation grossière du résultat, et l’autre pour calculer précisément le dernier chiffre.

Ces chemins interagissent alors entre eux pour produire la réponse finale. Le plus drôle, c’est que si vous demandez à Claude comment il a calculé 36+59, il vous parlera de la méthode standard avec “je retiens 1”… alors que son cerveau artificiel fait quelque chose de totalement différent.

Et ça vous concerne directement car quand vous discutez avec Claude en lui posant une question complexe, il conçoit une stratégie bien plus élaborée que ce qu’il vous raconte. Môssieur préfère garder secrète ses petites recettes personnelles.

La partie la plus fascinante (ou inquiétante, selon le point de vue) concerne les hallucinations et les mensonges. Les chercheurs ont découvert que Claude a également un circuit par défaut qui dit “je ne sais pas” et qui est activé automatiquement pour toute les questions. Mais quand Claude reconnaît un sujet qu’il connaît bien (comme Michael Jordan), un circuit concurrent s’active et inhibe ce refus par défaut.

Le problème c’est que parfois, Claude reconnaît un nom mais ne sait rien de plus sur cette personne. Son circuit “entité connue” peut alors quand même s’activer par erreur, supprimer le circuit “je ne sais pas”, et le forcer à inventer une réponse plausible mais fausse. C’est comme quand vous paniquez à un examen et que vous écrivez n’importe quoi plutôt que de laisser la page blanche, ou comme moi quand ma mère me demandait où j’étais la veille.

Pire encore, les chercheurs ont prouvé que Claude peut fabriquer un raisonnement qui semble logique mais qui est complètement bidouillé pour arriver à la conclusion qu’il pense que vous attendez. Par exemple, ils ont donné à Claude un problème mathématique difficile avec un indice incorrect, et ont observé Claude construire un “raisonnement” qui mène à cette réponse erronée comme si le modèle disait “le prof veut cette réponse, alors trouvons un chemin qui y mène, peu importe s’il est correct”.

Quant aux fameux “jailbreaks” (ces techniques qui permettent de contourner les limitations de sécurité des IA), Anthropic a découvert qu’ils fonctionnent en partie à cause d’une tension entre cohérence grammaticale et mécanismes de sécurité. Une fois que Claude commence une phrase, plusieurs circuits le poussent à maintenir une cohérence grammaticale et sémantique, même s’il détecte qu’il devrait refuser.

C’est seulement après avoir terminé une phrase grammaticalement cohérente qu’il peut pivoter vers un refus. Un peu comme moi quand je commence à raconter une blague bien douteuse et que je réalise en plein milieu de l’histoire que c’est pas une bonne idée mais que je la termine quand même, quitte à aller jusqu’au crash, parce que… ben, faut finir.

Bref, toutes ces découvertes fascinantes pourraient vraiment révolutionner notre façon de développer et d’utiliser l’IA. Ça permettrait de détecter quand une IA invente un faux raisonnement ou comprendre précisément pourquoi elle hallucine dans certaines situations voire développer des garde-fous plus efficaces contre les jailbreaks.


C’est une avancée majeure notamment pour toutes les boites qui hésitent à passer à l’IA justement à cause des ces problèmes de fiabilité. Josh Batson, chercheur chez Anthropic, affirme même : “Je pense que d’ici un an ou deux, nous allons en savoir plus sur la façon dont ces modèles réfléchissent que sur la façon dont les humains réfléchissent.

Bien sûr, la méthode a ses limites car même pour des prompts de quelques dizaines de mots, ça prend plusieurs heures à un expert pour comprendre les circuits identifiés. Et on ne capture qu’une fraction du calcul total effectué par Claude.

Mais c’est un début et un sacré début !! Car pour la première fois, on commence à comprendre comment ces systèmes d’IA “pensent” réellement.

Et si je suis certain d’une chose, c’est que bientôt, c’est nous qui hallucinerons le plus.