Sparse Autoencoder: Definição e significado — Wiki de IA

Uma rede neural treinada para reconstruir as ativações internas de um modelo através de um gargalo com uma restrição de esparsidade — apenas algumas features podem estar ativas de cada vez. As features aprendidas frequentemente correspondem a conceitos interpretáveis (tópicos específicos, padrões linguísticos, estratégias de raciocínio), tornando SAEs a ferramenta principal para desemaranhar as features superpostas dentro de modelos de linguagem grandes.

Por que isso importa

Sparse autoencoders são o microscópio da interpretabilidade mecanística. LLMs empacotam milhares de features em cada camada através de superposição, tornando neurônios individuais não interpretáveis. SAEs decompõem essas representações superpostas em features individuais e interpretáveis. A Anthropic usou SAEs para identificar milhões de features no Claude, incluindo features para engano, conceitos específicos e comportamentos relevantes para segurança.

Em profundidade

Arquitetura: o SAE recebe o vetor de ativação de um modelo (dimensão d_model, ex.: 4096) e o codifica em uma representação esparsa muito maior (ex.: 64K features, das quais apenas ~100 estão ativas para qualquer entrada). Então decodifica de volta para d_model e é treinado para minimizar o erro de reconstrução. A restrição de esparsidade (penalidade L1 na camada oculta) força o SAE a usar apenas algumas features por entrada, garantindo que cada feature seja específica em vez de difusa.

O Que os SAEs Encontram

Quando treinados nas ativações de LLMs, SAEs descobrem features interpretáveis: uma feature "Golden Gate Bridge" que ativa em texto sobre a ponte, uma feature "código Python", uma feature "idioma francês", uma feature "concordância bajuladora" e assim por diante. Essas features são mais interpretáveis que neurônios individuais porque a restrição de esparsidade separa conceitos sobrepostos que neurônios representam em superposição. A pesquisa da Anthropic encontrou features variando do concreto (entidades específicas) ao abstrato (engano, incerteza).

Aplicações Além da Interpretação

Features de SAE podem ser usadas para mais do que compreensão: fixar uma feature em zero suprime o comportamento correspondente (desativar uma feature de "engano"), enquanto amplificar uma feature a fortalece. Isso abre a possibilidade de controle comportamental de granularidade fina sem retreinamento. No entanto, a técnica ainda é experimental — interações entre features são complexas, e modificar uma feature pode ter efeitos não intencionais em outras devido à superposição residual.

Sparse Autoencoder

Por que isso importa

Em profundidade

O Que os SAEs Encontram

Aplicações Além da Interpretação

Conceitos relacionados