Auto-encodeur épars : Définition et signification — Wiki IA

Un réseau de neurones entraîné à reconstruire les activations internes d'un modèle à travers un goulot d'étranglement avec une contrainte de parcimonie — seules quelques features peuvent être actives à la fois. Les features apprises correspondent souvent à des concepts interprétables (sujets spécifiques, patterns linguistiques, stratégies de raisonnement), faisant des SAE l'outil principal pour démêler les features superposées à l'intérieur des grands modèles de langage.

Pourquoi c'est important

Les auto-encodeurs épars sont le microscope de l'interprétabilité mécaniste. Les LLM empaquettent des milliers de features dans chaque couche par superposition, rendant les neurones individuels ininterprétables. Les SAE décomposent ces représentations superposées en features individuelles et interprétables. Anthropic a utilisé les SAE pour identifier des millions de features dans Claude, incluant des features pour la tromperie, des concepts spécifiques et des comportements liés à la sécurité.

En profondeur

Architecture : le SAE prend un vecteur d'activation du modèle (dimension d_model, ex : 4096) et l'encode dans une représentation éparse beaucoup plus grande (ex : 64K features, dont seulement ~100 sont actives pour une entrée donnée). Il décode ensuite vers d_model et est entraîné à minimiser l'erreur de reconstruction. La contrainte de parcimonie (pénalité L1 sur la couche cachée) force le SAE à n'utiliser que quelques features par entrée, garantissant que chaque feature est spécifique plutôt que diffuse.

Ce que les SAE trouvent

Quand ils sont entraînés sur les activations de LLM, les SAE découvrent des features interprétables : une feature "Golden Gate Bridge" qui s'active sur du texte à propos du pont, une feature "code Python", une feature "langue française", une feature "accord sycophante", et ainsi de suite. Ces features sont plus interprétables que les neurones individuels parce que la contrainte de parcimonie sépare les concepts superposés que les neurones représentent en superposition. La recherche d'Anthropic a trouvé des features allant du concret (entités spécifiques) à l'abstrait (tromperie, incertitude).

Applications au-delà de l'interprétation

Les features SAE peuvent être utilisées pour plus que la compréhension : fixer une feature à zéro supprime le comportement correspondant (désactiver une feature "tromperie"), tandis qu'amplifier une feature le renforce. Cela ouvre la possibilité d'un contrôle comportemental à grain fin sans réentraînement. Cependant, la technique est encore expérimentale — les interactions entre features sont complexes, et modifier une feature peut avoir des effets imprévus sur d'autres en raison de la superposition résiduelle.

Auto-encodeur épars

Pourquoi c'est important

En profondeur

Ce que les SAE trouvent

Applications au-delà de l'interprétation

Concepts connexes