O insight-chave: um modelo com 4096 neurônios por camada pode representar muito mais que 4096 features usando o espaço completo de 4096 dimensões. Cada feature é uma direção (um vetor) nesse espaço, e features podem se sobrepor desde que não sejam muito similares. Isso é matematicamente análogo ao compressed sensing — você pode armazenar mais sinais do que dimensões se os sinais forem esparsos (apenas alguns estão ativos a qualquer momento).
Modelos aprendem superposição porque o mundo tem mais features do que qualquer modelo prático tem dimensões. Um modelo precisa representar milhares de conceitos (cores, emoções, regras de sintaxe, conhecimento factual, padrões de código), mas pode ter apenas 4096 dimensões por camada. Superposição permite empacotar todas essas features no espaço disponível, ao custo de alguma interferência quando múltiplas features sobrepostas ativam simultaneamente.
Superposição tem implicações diretas para segurança de IA. Se uma feature de "engano" está superposta com outras features benignas, é difícil de detectar e remover. Autoencoders esparsos (usados em interpretabilidade mecanística) tentam desembaraçar a superposição encontrando as direções individuais de features, mas o número de features em um modelo grande pode ser enorme — a Anthropic identificou milhões de features interpretáveis no Claude. Entender e controlar superposição é um desafio central para tornar sistemas de IA confiavelmente seguros.