Superposição: Definição e significado — Wiki de IA

O fenômeno onde redes neurais codificam muito mais features (conceitos, padrões) do que têm neurônios, representando features como direções no espaço de ativação em vez de dedicar neurônios individuais a features individuais. Um único neurônio participa na codificação de dezenas de features simultaneamente, e cada feature é distribuída por muitos neurônios.

Por que isso importa

Superposição é a razão pela qual redes neurais são difíceis de interpretar e por que a interpretabilidade mecanística é desafiadora. Se cada neurônio representasse um conceito (como "o conceito de cães"), a interpretação seria simples. Em vez disso, conceitos estão espalhados por neurônios em padrões sobrepostos. Entender superposição é fundamental para entender tanto como redes neurais comprimem informação quanto por que às vezes se comportam inesperadamente.

Em profundidade

O insight-chave: um modelo com 4096 neurônios por camada pode representar muito mais que 4096 features usando o espaço completo de 4096 dimensões. Cada feature é uma direção (um vetor) nesse espaço, e features podem se sobrepor desde que não sejam muito similares. Isso é matematicamente análogo ao compressed sensing — você pode armazenar mais sinais do que dimensões se os sinais forem esparsos (apenas alguns estão ativos a qualquer momento).

Por Que Modelos Fazem Isso

Modelos aprendem superposição porque o mundo tem mais features do que qualquer modelo prático tem dimensões. Um modelo precisa representar milhares de conceitos (cores, emoções, regras de sintaxe, conhecimento factual, padrões de código), mas pode ter apenas 4096 dimensões por camada. Superposição permite empacotar todas essas features no espaço disponível, ao custo de alguma interferência quando múltiplas features sobrepostas ativam simultaneamente.

Implicações para Segurança

Superposição tem implicações diretas para segurança de IA. Se uma feature de "engano" está superposta com outras features benignas, é difícil de detectar e remover. Autoencoders esparsos (usados em interpretabilidade mecanística) tentam desembaraçar a superposição encontrando as direções individuais de features, mas o número de features em um modelo grande pode ser enorme — a Anthropic identificou milhões de features interpretáveis no Claude. Entender e controlar superposição é um desafio central para tornar sistemas de IA confiavelmente seguros.

Superposição

Por que isso importa

Em profundidade

Por Que Modelos Fazem Isso

Implicações para Segurança

Conceitos relacionados