Arquitectura: el SAE toma el vector de activación de un modelo (dimensión d_model, por ejemplo, 4096) y lo codifica en una representación dispersa mucho más grande (por ejemplo, 64K características, de las cuales solo ~100 están activas para cualquier entrada dada). Luego decodifica de vuelta a d_model y se entrena para minimizar el error de reconstrucción. La restricción de dispersión (penalización L1 en la capa oculta) obliga al SAE a usar solo unas pocas características por entrada, asegurando que cada característica sea específica en lugar de difusa.
Cuando se entrenan sobre activaciones de LLM, los SAE descubren características interpretables: una característica de "Puente Golden Gate" que se activa con texto sobre el puente, una característica de "código Python", una característica de "idioma francés", una característica de "acuerdo adulador", y así sucesivamente. Estas características son más interpretables que las neuronas individuales porque la restricción de dispersión separa conceptos superpuestos que las neuronas representan en superposición. La investigación de Anthropic encontró características que van desde lo concreto (entidades específicas) hasta lo abstracto (engaño, incertidumbre).
Las características de SAE pueden usarse para más que comprensión: fijar una característica a cero suprime el comportamiento correspondiente (desactivar una característica de "engaño"), mientras que amplificar una característica la refuerza. Esto abre la posibilidad de control conductual granular sin reentrenamiento. Sin embargo, la técnica aún es experimental — las interacciones entre características son complejas, y modificar una puede tener efectos no deseados en otras debido a la superposición residual.