Context Length Extension: Definition & Meaning — AI Wiki

Técnicas que habilitan a los modelos de lenguaje manejar secuencias más largas que las vistas durante el entrenamiento. Un modelo entrenado en 4K tokens puede extenderse a 32K o 128K a través de modificaciones a su positional encoding (típicamente RoPE) combinadas con un corto fine-tuning en secuencias más largas. Esto evita el costo enorme de entrenar desde cero en secuencias largas.

Por qué importa

La extensión de longitud de contexto es por qué los modelos han ido de 4K a 128K a 1M+ ventanas de contexto en solo dos años. El costo de entrenar un modelo desde cero en secuencias de millones de tokens sería prohibitivo. Las técnicas de extensión hacen prácticos los modelos long-context adaptando modelos entrenados en secuencias más cortas, requiriendo solo una fracción del compute de entrenamiento original.

Deep Dive

The core challenge: RoPE (Rotary Position Embeddings) encodes position using rotation angles. At positions beyond the training length, these angles become extrapolations that the model has never seen, causing attention patterns to break down. Extension techniques modify how positions map to rotation angles so that longer sequences produce angles within the model's trained range.

NTK-Aware Scaling

NTK-aware interpolation (Neural Tangent Kernel) adjusts RoPE frequencies non-uniformly: high-frequency components (important for local patterns) are preserved while low-frequency components (position-dependent) are interpolated. This preserves the model's ability to handle local patterns (word order, syntax) while extending its range for global position encoding. It's a one-line code change that dramatically improves length extrapolation.

YaRN

YaRN (Yet another RoPE extensioN) combines NTK-aware interpolation with an attention temperature correction and a small amount of fine-tuning on extended-length data (typically a few hundred steps). This produces models that handle 4–8x their original context length with minimal quality degradation. Most open-source long-context models (like long-context Llama or Mistral variants) use YaRN or similar techniques. The fine-tuning step is crucial — scaling alone works somewhat, but fine-tuning at the target length significantly improves quality.

Context Length Extension

Por qué importa

Deep Dive

NTK-Aware Scaling

YaRN

Conceptos relacionados