Arquitetura: o SAE recebe o vetor de ativação de um modelo (dimensão d_model, ex.: 4096) e o codifica em uma representação esparsa muito maior (ex.: 64K features, das quais apenas ~100 estão ativas para qualquer entrada). Então decodifica de volta para d_model e é treinado para minimizar o erro de reconstrução. A restrição de esparsidade (penalidade L1 na camada oculta) força o SAE a usar apenas algumas features por entrada, garantindo que cada feature seja específica em vez de difusa.
Quando treinados nas ativações de LLMs, SAEs descobrem features interpretáveis: uma feature "Golden Gate Bridge" que ativa em texto sobre a ponte, uma feature "código Python", uma feature "idioma francês", uma feature "concordância bajuladora" e assim por diante. Essas features são mais interpretáveis que neurônios individuais porque a restrição de esparsidade separa conceitos sobrepostos que neurônios representam em superposição. A pesquisa da Anthropic encontrou features variando do concreto (entidades específicas) ao abstrato (engano, incerteza).
Features de SAE podem ser usadas para mais do que compreensão: fixar uma feature em zero suprime o comportamento correspondente (desativar uma feature de "engano"), enquanto amplificar uma feature a fortalece. Isso abre a possibilidade de controle comportamental de granularidade fina sem retreinamento. No entanto, a técnica ainda é experimental — interações entre features são complexas, e modificar uma feature pode ter efeitos não intencionais em outras devido à superposição residual.