Token : Définition et signification — Wiki IA

Des techniques qui permettent aux modèles de langage de gérer des séquences plus longues que celles vues pendant l'entraînement. Un modèle entraîné sur 4K tokens peut être étendu à 32K ou 128K par des modifications de son encodage positionnel (typiquement RoPE) combinées à un court ajustement fin sur des séquences plus longues. Cela évite le coût énorme d'entraîner un modèle de zéro sur de longues séquences.

Pourquoi c'est important

L'extension de longueur de contexte est la raison pour laquelle les modèles sont passés de 4K à 128K à 1M+ de tokens de contexte en seulement deux ans. Le coût d'entraîner un modèle de zéro sur des séquences d'un million de tokens serait prohibitif. Les techniques d'extension rendent les modèles à long contexte pratiques en adaptant des modèles entraînés sur des séquences plus courtes, nécessitant seulement une fraction du calcul d'entraînement original.

En profondeur

Le défi central : RoPE (Rotary Position Embeddings) encode la position en utilisant des angles de rotation. Aux positions au-delà de la longueur d'entraînement, ces angles deviennent des extrapolations que le modèle n'a jamais vues, causant l'effondrement des patterns d'attention. Les techniques d'extension modifient la façon dont les positions correspondent aux angles de rotation pour que les séquences plus longues produisent des angles dans la plage d'entraînement du modèle.

Mise à l'échelle NTK

L'interpolation NTK (Neural Tangent Kernel) ajuste les fréquences RoPE de manière non uniforme : les composantes haute fréquence (importantes pour les patterns locaux) sont préservées tandis que les composantes basse fréquence (dépendantes de la position) sont interpolées. Cela préserve la capacité du modèle à gérer les patterns locaux (ordre des mots, syntaxe) tout en étendant sa portée pour l'encodage positionnel global. C'est un changement d'une seule ligne de code qui améliore dramatiquement l'extrapolation de longueur.

YaRN

YaRN (Yet another RoPE extensioN) combine l'interpolation NTK avec une correction de température d'attention et une petite quantité d'ajustement fin sur des données de longueur étendue (typiquement quelques centaines d'étapes). Ça produit des modèles qui gèrent 4 à 8x leur longueur de contexte originale avec une dégradation de qualité minimale. La plupart des modèles open-source à long contexte (comme les variantes long-contexte de Llama ou Mistral) utilisent YaRN ou des techniques similaires. L'étape d'ajustement fin est cruciale — la mise à l'échelle seule fonctionne dans une certaine mesure, mais l'ajustement fin à la longueur cible améliore significativement la qualité.

Extension de longueur de contexte

Pourquoi c'est important

En profondeur

Mise à l'échelle NTK

YaRN

Concepts connexes