Autoencoder disperso: Definición y significado — Wiki de IA

Una red neuronal entrenada para reconstruir las activaciones internas de un modelo a través de un cuello de botella con restricción de dispersión — solo unas pocas características pueden estar activas a la vez. Las características aprendidas a menudo corresponden a conceptos interpretables (temas específicos, patrones lingüísticos, estrategias de razonamiento), convirtiendo a los SAE en la herramienta principal para desenredar las características superpuestas dentro de los modelos de lenguaje grandes.

Por qué importa

Los autoencoders dispersos son el microscopio de la interpretabilidad mecanicista. Los LLMs empaquetan miles de características en cada capa mediante superposición, haciendo que las neuronas individuales sean ininterpretables. Los SAE descomponen estas representaciones superpuestas en características individuales e interpretables. Anthropic usó SAEs para identificar millones de características en Claude, incluyendo características de engaño, conceptos específicos y comportamientos relevantes para la seguridad.

En profundidad

Arquitectura: el SAE toma el vector de activación de un modelo (dimensión d_model, por ejemplo, 4096) y lo codifica en una representación dispersa mucho más grande (por ejemplo, 64K características, de las cuales solo ~100 están activas para cualquier entrada dada). Luego decodifica de vuelta a d_model y se entrena para minimizar el error de reconstrucción. La restricción de dispersión (penalización L1 en la capa oculta) obliga al SAE a usar solo unas pocas características por entrada, asegurando que cada característica sea específica en lugar de difusa.

Lo que descubren los SAE

Cuando se entrenan sobre activaciones de LLM, los SAE descubren características interpretables: una característica de "Puente Golden Gate" que se activa con texto sobre el puente, una característica de "código Python", una característica de "idioma francés", una característica de "acuerdo adulador", y así sucesivamente. Estas características son más interpretables que las neuronas individuales porque la restricción de dispersión separa conceptos superpuestos que las neuronas representan en superposición. La investigación de Anthropic encontró características que van desde lo concreto (entidades específicas) hasta lo abstracto (engaño, incertidumbre).

Aplicaciones más allá de la interpretación

Las características de SAE pueden usarse para más que comprensión: fijar una característica a cero suprime el comportamiento correspondiente (desactivar una característica de "engaño"), mientras que amplificar una característica la refuerza. Esto abre la posibilidad de control conductual granular sin reentrenamiento. Sin embargo, la técnica aún es experimental — las interacciones entre características son complejas, y modificar una puede tener efectos no deseados en otras debido a la superposición residual.

Autoencoder disperso

Por qué importa

En profundidad

Lo que descubren los SAE

Aplicaciones más allá de la interpretación

Conceptos relacionados