L'intuition clé : un modèle avec 4096 neurones par couche peut représenter bien plus de 4096 caractéristiques en utilisant l'espace complet à 4096 dimensions. Chaque caractéristique est une direction (un vecteur) dans cet espace, et les caractéristiques peuvent se chevaucher tant qu'elles ne sont pas trop similaires. C'est mathématiquement analogue au compressed sensing — on peut stocker plus de signaux que de dimensions si les signaux sont creux (seuls quelques-uns sont actifs à un moment donné).
Les modèles apprennent la superposition parce que le monde a plus de caractéristiques que tout modèle pratique n'a de dimensions. Un modèle doit représenter des milliers de concepts (couleurs, émotions, règles syntaxiques, connaissances factuelles, patterns de code), mais peut n'avoir que 4096 dimensions par couche. La superposition lui permet de compacter toutes ces caractéristiques dans l'espace disponible, au prix d'une certaine interférence quand plusieurs caractéristiques chevauchantes s'activent simultanément.
La superposition a des implications directes pour la sécurité de l'IA. Si une caractéristique de « tromperie » est superposée avec d'autres caractéristiques bénignes, elle est difficile à détecter et à retirer. Les autoencodeurs creux (utilisés en interprétabilité mécaniste) essaient de démêler la superposition en trouvant les directions de caractéristiques individuelles, mais le nombre de caractéristiques dans un grand modèle peut être énorme — Anthropic a identifié des millions de caractéristiques interprétables dans Claude. Comprendre et contrôler la superposition est un défi central pour rendre les systèmes d'IA fiablement sûrs.