La idea clave: un modelo con 4096 neuronas por capa puede representar mucho más que 4096 características usando el espacio completo de 4096 dimensiones. Cada característica es una dirección (un vector) en este espacio, y las características pueden superponerse siempre que no sean demasiado similares. Esto es matemáticamente análogo a la detección comprimida — puedes almacenar más señales que dimensiones si las señales son dispersas (solo unas pocas están activas en cualquier momento).
Los modelos aprenden superposición porque el mundo tiene más características que las que cualquier modelo práctico tiene dimensiones. Un modelo necesita representar miles de conceptos (colores, emociones, reglas sintácticas, conocimiento factual, patrones de código), pero podría tener solo 4096 dimensiones por capa. La superposición le permite empaquetar todas estas características en el espacio disponible, al costo de cierta interferencia cuando múltiples características superpuestas se activan simultáneamente.
La superposición tiene implicaciones directas para la seguridad de la IA. Si una característica de "engaño" está superpuesta con otras características benignas, es difícil de detectar y eliminar. Los autoencoders dispersos (usados en interpretabilidad mecanicista) intentan desenredar la superposición encontrando las direcciones de características individuales, pero el número de características en un modelo grande puede ser enorme — Anthropic identificó millones de características interpretables en Claude. Comprender y controlar la superposición es un desafío central para hacer que los sistemas de IA sean confiablemente seguros.