Zubnet AIApprendreWiki › Context Length Extension
Infrastructure

Context Length Extension

YaRN, NTK Scaling, RoPE Scaling
Des techniques qui permettent aux modèles de langage de gérer des séquences plus longues que celles vues pendant l'entraînement. Un modèle entraîné sur 4K tokens peut être étendu à 32K ou 128K à travers des modifications de son encodage positionnel (typiquement RoPE) combinées avec un court fine-tuning sur des séquences plus longues. Ça évite le coût énorme d'entraîner à partir de zéro sur de longues séquences.

Pourquoi c'est important

L'extension de longueur de contexte est pourquoi les modèles sont passés de 4K à 128K à 1M+ fenêtres de contexte en juste deux ans. Le coût d'entraîner un modèle à partir de zéro sur des séquences d'un million de tokens serait prohibitif. Les techniques d'extension rendent les modèles long-context pratiques en adaptant des modèles qui ont été entraînés sur des séquences plus courtes, demandant seulement une fraction du compute d'entraînement original.

Deep Dive

The core challenge: RoPE (Rotary Position Embeddings) encodes position using rotation angles. At positions beyond the training length, these angles become extrapolations that the model has never seen, causing attention patterns to break down. Extension techniques modify how positions map to rotation angles so that longer sequences produce angles within the model's trained range.

NTK-Aware Scaling

NTK-aware interpolation (Neural Tangent Kernel) adjusts RoPE frequencies non-uniformly: high-frequency components (important for local patterns) are preserved while low-frequency components (position-dependent) are interpolated. This preserves the model's ability to handle local patterns (word order, syntax) while extending its range for global position encoding. It's a one-line code change that dramatically improves length extrapolation.

YaRN

YaRN (Yet another RoPE extensioN) combines NTK-aware interpolation with an attention temperature correction and a small amount of fine-tuning on extended-length data (typically a few hundred steps). This produces models that handle 4–8x their original context length with minimal quality degradation. Most open-source long-context models (like long-context Llama or Mistral variants) use YaRN or similar techniques. The fine-tuning step is crucial — scaling alone works somewhat, but fine-tuning at the target length significantly improves quality.

Concepts liés

← Tous les termes
← Content Moderation Context Window →