Interpretabilidade Mecanística: Definição e significado — Wiki de IA

Engenharia reversa do que acontece dentro de redes neurais no nível de neurônio/circuito/feature. Não apenas o que o modelo produz, mas como ele calcula.

Por que isso importa

Central para segurança de IA. Pesquisadores encontraram circuitos específicos (cabeças de indução, etc.) dentro de Transformers. Área de pesquisa chave na Anthropic.

Em profundidade

Superposição: muitas features codificadas como direções no espaço de ativação. Autoencoders esparsos desentrelam features. De features a circuitos: rastrear o fluxo de informação para comportamentos específicos.

O Problema da Superposição

Redes neurais codificam muito mais conceitos do que têm neurônios. Isso acontece através de superposição: cada conceito é representado como uma direção no espaço de ativação, e múltiplos conceitos compartilham os mesmos neurônios. Autoencoders esparsos (SAEs) são a principal ferramenta para desentrelar essas features sobrepostas, revelando conceitos interpretáveis individuais.

De Features a Circuitos

Uma vez identificadas as features, o próximo passo é rastrear como a informação flui entre elas — encontrando “circuitos” que implementam comportamentos específicos. Cabeças de indução, por exemplo, são circuitos que copiam padrões vistos anteriormente no contexto. Essa pesquisa é fundamental para entender e eventualmente controlar o que modelos de IA fazem internamente.

Interpretabilidade Mecanística

Por que isso importa

Em profundidade

O Problema da Superposição

De Features a Circuitos

Conceitos relacionados