Cabeza de inducción: Definición y significado — Wiki de IA

Un circuito específico de dos cabezas de atención descubierto en Transformers que implementa el aprendizaje en contexto mediante coincidencia de patrones. Si el modelo ha visto el patrón "A B" antes en el contexto y ahora ve "A" de nuevo, la cabeza de inducción predice que "B" seguirá. Este mecanismo simple se cree que es un bloque fundamental de cómo los LLMs aprenden de los ejemplos en su contexto.

Por qué importa

Las cabezas de inducción son el circuito mejor entendido en interpretabilidad mecanicista — un ejemplo concreto de cómo los Transformers implementan un algoritmo útil a partir de pesos aprendidos. Explican por qué funciona el prompting few-shot: cuando das ejemplos, las cabezas de inducción detectan el patrón y lo aplican. Entender las cabezas de inducción proporciona una base para comprender comportamientos aprendidos más complejos.

En profundidad

El circuito usa dos cabezas a través de dos capas. La primera cabeza (una "cabeza de token anterior" en una capa más temprana) copia información sobre qué token precedió al actual. La segunda cabeza (la "cabeza de inducción" real en una capa posterior) usa esta información para completar patrones: si el token B fue precedido por A antes en el contexto, y A aparece de nuevo, la cabeza de inducción impulsa la predicción de B. Esta es una forma simple pero potente de aprendizaje en contexto.

Descubrimiento y verificación

Olsson et al. (2022, Anthropic) identificaron las cabezas de inducción mediante un análisis cuidadoso de los patrones de atención en Transformers de varios tamaños. Observaron un cambio de fase durante el entrenamiento: las cabezas de inducción se forman repentinamente, y su formación coincide con una mejora dramática en la capacidad del modelo para hacer aprendizaje en contexto. Esto sugiere que las cabezas de inducción no son solo uno de muchos circuitos sino una capacidad fundacional que habilita el aprendizaje en contexto de nivel superior.

Más allá de patrones simples

El aprendizaje en contexto del mundo real es más complejo que "A B ... A → B". Los modelos aprenden a generalizar patrones: "la capital de Francia es París, la capital de Alemania es Berlín, la capital de Japón es..." requiere entender el patrón abstracto, no simplemente copiar. La investigación sugiere que circuitos más complejos similares a la inducción se construyen sobre el mecanismo básico de cabeza de inducción, componiéndolo con otros circuitos para manejar la abstracción y la generalización.

Cabeza de inducción

Por qué importa

En profundidad

Descubrimiento y verificación

Más allá de patrones simples

Conceptos relacionados