Interpretabilidad mecanicista: Definición y significado — Wiki de IA

Ingeniería inversa de lo que sucede dentro de las redes neuronales a nivel de neuronas, circuitos y features. No solo qué produce el modelo, sino cómo lo computa.

Por qué importa

Central para la seguridad de IA. Los investigadores han encontrado circuitos específicos (cabezas de inducción, etc.) dentro de los Transformers. Es un área de investigación clave en Anthropic.

En profundidad

El problema de la superposición: muchas features se codifican como direcciones en el espacio de activación, y una sola neurona puede participar en múltiples features. Los autoencoders dispersos (sparse autoencoders) desenredan estas features, permitiendo a los investigadores identificar qué conceptos representan las neuronas individuales.

De features a circuitos

Una vez identificadas las features, el siguiente paso es trazar el flujo de información para comportamientos específicos. ¿Cómo "sabe" el modelo que París es la capital de Francia? ¿Qué circuito implementa la concordancia sujeto-verbo? Encontrar estos circuitos convierte la red neuronal de una caja negra en algo parcialmente entendible.

Por qué importa para la seguridad

Si puedes entender cómo un modelo computa sus respuestas, puedes verificar que lo hace por las razones correctas, detectar engaño o comportamiento aprendido indeseable, y construir salvaguardas más informadas. Sin interpretabilidad, la alineación depende de pruebas empíricas — nunca puedes estar seguro de que el modelo no tiene comportamientos ocultos que tus tests no captaron.

Interpretabilidad mecanicista

Por qué importa

En profundidad

De features a circuitos

Por qué importa para la seguridad

Conceptos relacionados