Superposition : Définition et signification — Wiki IA

Le phénomène par lequel les réseaux de neurones encodent bien plus de caractéristiques (concepts, patterns) qu'ils n'ont de neurones, en représentant les caractéristiques comme des directions dans l'espace d'activation plutôt qu'en dédiant un neurone individuel à chaque caractéristique. Un seul neurone participe à l'encodage de dizaines de caractéristiques simultanément, et chaque caractéristique est distribuée sur de nombreux neurones.

Pourquoi c'est important

La superposition est la raison pour laquelle les réseaux de neurones sont difficiles à interpréter et pourquoi l'interprétabilité mécaniste est un défi. Si chaque neurone représentait un concept (comme « le concept de chiens »), l'interprétation serait simple. Au lieu de ça, les concepts sont étalés sur les neurones en patterns qui se chevauchent. Comprendre la superposition est la clé pour comprendre à la fois comment les réseaux de neurones compressent l'information et pourquoi ils se comportent parfois de façon inattendue.

En profondeur

L'intuition clé : un modèle avec 4096 neurones par couche peut représenter bien plus de 4096 caractéristiques en utilisant l'espace complet à 4096 dimensions. Chaque caractéristique est une direction (un vecteur) dans cet espace, et les caractéristiques peuvent se chevaucher tant qu'elles ne sont pas trop similaires. C'est mathématiquement analogue au compressed sensing — on peut stocker plus de signaux que de dimensions si les signaux sont creux (seuls quelques-uns sont actifs à un moment donné).

Pourquoi les modèles font ça

Les modèles apprennent la superposition parce que le monde a plus de caractéristiques que tout modèle pratique n'a de dimensions. Un modèle doit représenter des milliers de concepts (couleurs, émotions, règles syntaxiques, connaissances factuelles, patterns de code), mais peut n'avoir que 4096 dimensions par couche. La superposition lui permet de compacter toutes ces caractéristiques dans l'espace disponible, au prix d'une certaine interférence quand plusieurs caractéristiques chevauchantes s'activent simultanément.

Implications pour la sécurité

La superposition a des implications directes pour la sécurité de l'IA. Si une caractéristique de « tromperie » est superposée avec d'autres caractéristiques bénignes, elle est difficile à détecter et à retirer. Les autoencodeurs creux (utilisés en interprétabilité mécaniste) essaient de démêler la superposition en trouvant les directions de caractéristiques individuelles, mais le nombre de caractéristiques dans un grand modèle peut être énorme — Anthropic a identifié des millions de caractéristiques interprétables dans Claude. Comprendre et contrôler la superposition est un défi central pour rendre les systèmes d'IA fiablement sûrs.

Superposition

Pourquoi c'est important

En profondeur

Pourquoi les modèles font ça

Implications pour la sécurité

Concepts connexes