Rétro-ingénierie de ce qui se passe à l'intérieur des réseaux de neurones au niveau des neurones, circuits et features. Pas seulement ce que le modèle produit, mais comment il calcule.
Pourquoi c'est important
Centrale pour la sécurité de l'IA. Les chercheurs ont trouvé des circuits spécifiques (têtes d'induction, etc.) à l'intérieur des Transformers. Domaine de recherche clé chez Anthropic.
En profondeur
Superposition : beaucoup de features encodées comme des directions dans l'espace d'activation. Les autoencoders parcimonieux démêlent les features. Des features aux circuits : tracer le flux d'information pour des comportements spécifiques.