Atención Dispersa: Definición y significado — Wiki de IA

Mecanismos de atención que procesan solo un subconjunto de pares de tokens en lugar de la matriz de atención N×N completa. La atención de ventana deslizante atiende solo a tokens cercanos (dentro de una ventana fija). Los patrones dispersos (como la combinación de atención local + global de Longformer) permiten que tokens específicos atiendan a todo mientras la mayoría atiende localmente. Estos enfoques reducen el costo cuadrático de la atención para secuencias largas.

Por qué importa

La atención dispersa es cómo Mistral, Mixtral y otros modelos eficientes manejan secuencias largas sin el costo completo de la atención densa. Es el compromiso práctico entre "atender a todo" (caro pero exhaustivo) y "no atender a nada distante" (barato pero limitado). Entender la atención dispersa te ayuda a evaluar afirmaciones sobre longitud de contexto y predecir dónde podría ocurrir degradación de calidad.

En profundidad

Atención de ventana deslizante: cada token atiende solo a tokens dentro de una ventana fija (por ejemplo, 4096 tokens). La información de tokens anteriores se propaga a través de las capas — la capa 1 ve 4096 tokens, la capa 2 efectivamente ve 8192 (dos ventanas), y para la capa final, la información de toda la secuencia ha tenido oportunidad de propagarse. Mistral-7B usa una ventana deslizante de 4096 tokens en sus 32 capas.

Patrones Híbridos

Longformer combina atención de ventana deslizante (local) con atención global en tokens seleccionados (como [CLS] o posiciones definidas por el usuario). BigBird añade conexiones de atención aleatorias sobre patrones locales y globales. Estos enfoques híbridos permiten a los modelos manejar 4K–16K tokens con costo subcuadrático mientras mantienen la capacidad de conectar tokens distantes a través de posiciones globales.

El Compromiso de Calidad

La atención dispersa funciona bien para muchas tareas pero puede degradarse en tareas que requieren dependencias precisas de largo alcance — referenciar un hecho específico del principio de un documento largo, mantener consistencia a lo largo de una conversación larga, o seguir instrucciones complejas que abarcan muchos tokens. La atención densa (cuadrática completa) con Flash Attention sigue siendo más robusta para estos casos, razón por la cual la mayoría de los modelos de frontera todavía usan atención densa y dependen de Flash Attention para eficiencia en lugar de la dispersión.

Atención Dispersa

Por qué importa

En profundidad

Patrones Híbridos

El Compromiso de Calidad

Conceptos relacionados