El problema de la superposición: muchas features se codifican como direcciones en el espacio de activación, y una sola neurona puede participar en múltiples features. Los autoencoders dispersos (sparse autoencoders) desenredan estas features, permitiendo a los investigadores identificar qué conceptos representan las neuronas individuales.
Una vez identificadas las features, el siguiente paso es trazar el flujo de información para comportamientos específicos. ¿Cómo "sabe" el modelo que París es la capital de Francia? ¿Qué circuito implementa la concordancia sujeto-verbo? Encontrar estos circuitos convierte la red neuronal de una caja negra en algo parcialmente entendible.
Si puedes entender cómo un modelo computa sus respuestas, puedes verificar que lo hace por las razones correctas, detectar engaño o comportamiento aprendido indeseable, y construir salvaguardas más informadas. Sin interpretabilidad, la alineación depende de pruebas empíricas — nunca puedes estar seguro de que el modelo no tiene comportamientos ocultos que tus tests no captaron.