Interprétabilité mécaniste : Définition et signification — Wiki IA

Rétro-ingénierie de ce qui se passe à l'intérieur des réseaux de neurones au niveau des neurones, circuits et features. Pas seulement ce que le modèle produit, mais comment il calcule.

Pourquoi c'est important

Centrale pour la sécurité de l'IA. Les chercheurs ont trouvé des circuits spécifiques (têtes d'induction, etc.) à l'intérieur des Transformers. Domaine de recherche clé chez Anthropic.

En profondeur

Superposition : beaucoup de features encodées comme des directions dans l'espace d'activation. Les autoencoders parcimonieux démêlent les features. Des features aux circuits : tracer le flux d'information pour des comportements spécifiques.

Interprétabilité mécaniste

Pourquoi c'est important

En profondeur

Concepts connexes