Architecture : le SAE prend un vecteur d'activation du modèle (dimension d_model, ex : 4096) et l'encode dans une représentation éparse beaucoup plus grande (ex : 64K features, dont seulement ~100 sont actives pour une entrée donnée). Il décode ensuite vers d_model et est entraîné à minimiser l'erreur de reconstruction. La contrainte de parcimonie (pénalité L1 sur la couche cachée) force le SAE à n'utiliser que quelques features par entrée, garantissant que chaque feature est spécifique plutôt que diffuse.
Quand ils sont entraînés sur les activations de LLM, les SAE découvrent des features interprétables : une feature "Golden Gate Bridge" qui s'active sur du texte à propos du pont, une feature "code Python", une feature "langue française", une feature "accord sycophante", et ainsi de suite. Ces features sont plus interprétables que les neurones individuels parce que la contrainte de parcimonie sépare les concepts superposés que les neurones représentent en superposition. La recherche d'Anthropic a trouvé des features allant du concret (entités spécifiques) à l'abstrait (tromperie, incertitude).
Les features SAE peuvent être utilisées pour plus que la compréhension : fixer une feature à zéro supprime le comportement correspondant (désactiver une feature "tromperie"), tandis qu'amplifier une feature le renforce. Cela ouvre la possibilité d'un contrôle comportemental à grain fin sans réentraînement. Cependant, la technique est encore expérimentale — les interactions entre features sont complexes, et modifier une feature peut avoir des effets imprévus sur d'autres en raison de la superposition résiduelle.