Atención de ventana deslizante: cada token atiende solo a tokens dentro de una ventana fija (por ejemplo, 4096 tokens). La información de tokens anteriores se propaga a través de las capas — la capa 1 ve 4096 tokens, la capa 2 efectivamente ve 8192 (dos ventanas), y para la capa final, la información de toda la secuencia ha tenido oportunidad de propagarse. Mistral-7B usa una ventana deslizante de 4096 tokens en sus 32 capas.
Longformer combina atención de ventana deslizante (local) con atención global en tokens seleccionados (como [CLS] o posiciones definidas por el usuario). BigBird añade conexiones de atención aleatorias sobre patrones locales y globales. Estos enfoques híbridos permiten a los modelos manejar 4K–16K tokens con costo subcuadrático mientras mantienen la capacidad de conectar tokens distantes a través de posiciones globales.
La atención dispersa funciona bien para muchas tareas pero puede degradarse en tareas que requieren dependencias precisas de largo alcance — referenciar un hecho específico del principio de un documento largo, mantener consistencia a lo largo de una conversación larga, o seguir instrucciones complejas que abarcan muchos tokens. La atención densa (cuadrática completa) con Flash Attention sigue siendo más robusta para estos casos, razón por la cual la mayoría de los modelos de frontera todavía usan atención densa y dependen de Flash Attention para eficiencia en lugar de la dispersión.