Zubnet AIApprendreWiki › Interprétabilité mécaniste
Sécurité

Interprétabilité mécaniste

Aussi appelé : Mech Interp
Rétro-ingénierie de ce qui se passe à l'intérieur des réseaux de neurones au niveau des neurones, circuits et features. Pas seulement ce que le modèle produit, mais comment il calcule.

Pourquoi c'est important

Centrale pour la sécurité de l'IA. Les chercheurs ont trouvé des circuits spécifiques (têtes d'induction, etc.) à l'intérieur des Transformers. Domaine de recherche clé chez Anthropic.

En profondeur

Superposition : beaucoup de features encodées comme des directions dans l'espace d'activation. Les autoencoders parcimonieux démêlent les features. Des features aux circuits : tracer le flux d'information pour des comportements spécifiques.

Concepts connexes

← Tous les termes
← Intelligence artificielle Jailbreak →
ESC