Superposition: Definition & Meaning — AI Wiki

Le phénomène où les réseaux de neurones encodent beaucoup plus de features (concepts, patterns) qu'ils ont de neurones, en représentant les features comme des directions dans l'espace d'activation plutôt que de dédier des neurones individuels à des features individuels. Un seul neurone participe à encoder des dizaines de features simultanément, et chaque feature est distribuée à travers beaucoup de neurones.

Pourquoi c'est important

La superposition est pourquoi les réseaux de neurones sont difficiles à interpréter et pourquoi l'interprétabilité mécanistique est challenging. Si chaque neurone représentait un concept (comme « le concept de chiens »), l'interprétation serait simple. À la place, les concepts sont étalés à travers les neurones dans des patterns qui se chevauchent. Comprendre la superposition est clé pour comprendre à la fois comment les réseaux de neurones compressent l'information et pourquoi ils se comportent parfois de façon inattendue.

Deep Dive

The key insight: a model with 4096 neurons per layer can represent far more than 4096 features by using the full 4096-dimensional space. Each feature is a direction (a vector) in this space, and features can overlap as long as they're not too similar. This is mathematically analogous to compressed sensing — you can store more signals than dimensions if the signals are sparse (only a few are active at any time).

Why Models Do This

Models learn superposition because the world has more features than any practical model has dimensions. A model needs to represent thousands of concepts (colors, emotions, syntax rules, factual knowledge, code patterns), but might only have 4096 dimensions per layer. Superposition lets it pack all these features into the available space, at the cost of some interference when multiple overlapping features activate simultaneously.

Implications for Safety

Superposition has direct implications for AI safety. If a "deception" feature is superimposed with other benign features, it's hard to detect and remove. Sparse autoencoders (used in mechanistic interpretability) try to disentangle superposition by finding the individual feature directions, but the number of features in a large model may be enormous — Anthropic identified millions of interpretable features in Claude. Understanding and controlling superposition is a central challenge for making AI systems reliably safe.

Superposition

Pourquoi c'est important

Deep Dive

Why Models Do This

Implications for Safety

Concepts liés