Superposición: Definición y significado — Wiki de IA

El fenómeno por el cual las redes neuronales codifican muchas más características (conceptos, patrones) de las que tienen neuronas, representando las características como direcciones en el espacio de activaciones en lugar de dedicar neuronas individuales a características individuales. Una sola neurona participa en la codificación de docenas de características simultáneamente, y cada característica se distribuye entre muchas neuronas.

Por qué importa

La superposición es la razón por la cual las redes neuronales son difíciles de interpretar y por qué la interpretabilidad mecanicista es desafiante. Si cada neurona representara un concepto (como "el concepto de perros"), la interpretación sería sencilla. En cambio, los conceptos están dispersos entre neuronas en patrones superpuestos. Entender la superposición es clave para comprender cómo las redes neuronales comprimen información y por qué a veces se comportan de manera inesperada.

En profundidad

La idea clave: un modelo con 4096 neuronas por capa puede representar mucho más que 4096 características usando el espacio completo de 4096 dimensiones. Cada característica es una dirección (un vector) en este espacio, y las características pueden superponerse siempre que no sean demasiado similares. Esto es matemáticamente análogo a la detección comprimida — puedes almacenar más señales que dimensiones si las señales son dispersas (solo unas pocas están activas en cualquier momento).

Por qué los modelos hacen esto

Los modelos aprenden superposición porque el mundo tiene más características que las que cualquier modelo práctico tiene dimensiones. Un modelo necesita representar miles de conceptos (colores, emociones, reglas sintácticas, conocimiento factual, patrones de código), pero podría tener solo 4096 dimensiones por capa. La superposición le permite empaquetar todas estas características en el espacio disponible, al costo de cierta interferencia cuando múltiples características superpuestas se activan simultáneamente.

Implicaciones para la seguridad

La superposición tiene implicaciones directas para la seguridad de la IA. Si una característica de "engaño" está superpuesta con otras características benignas, es difícil de detectar y eliminar. Los autoencoders dispersos (usados en interpretabilidad mecanicista) intentan desenredar la superposición encontrando las direcciones de características individuales, pero el número de características en un modelo grande puede ser enorme — Anthropic identificó millones de características interpretables en Claude. Comprender y controlar la superposición es un desafío central para hacer que los sistemas de IA sean confiablemente seguros.

Superposición

Por qué importa

En profundidad

Por qué los modelos hacen esto

Implicaciones para la seguridad

Conceptos relacionados