Superposição: muitas features codificadas como direções no espaço de ativação. Autoencoders esparsos desentrelam features. De features a circuitos: rastrear o fluxo de informação para comportamentos específicos.
Redes neurais codificam muito mais conceitos do que têm neurônios. Isso acontece através de superposição: cada conceito é representado como uma direção no espaço de ativação, e múltiplos conceitos compartilham os mesmos neurônios. Autoencoders esparsos (SAEs) são a principal ferramenta para desentrelar essas features sobrepostas, revelando conceitos interpretáveis individuais.
Uma vez identificadas as features, o próximo passo é rastrear como a informação flui entre elas — encontrando “circuitos” que implementam comportamentos específicos. Cabeças de indução, por exemplo, são circuitos que copiam padrões vistos anteriormente no contexto. Essa pesquisa é fundamental para entender e eventualmente controlar o que modelos de IA fazem internamente.