O desafio central: RoPE (Rotary Position Embeddings) codifica posição usando ângulos de rotação. Em posições além do comprimento de treinamento, esses ângulos se tornam extrapolações que o modelo nunca viu, causando a quebra dos padrões de atenção. Técnicas de extensão modificam como posições mapeiam para ângulos de rotação para que sequências mais longas produzam ângulos dentro do intervalo treinado do modelo.
A interpolação NTK-aware (Neural Tangent Kernel) ajusta frequências de RoPE de forma não-uniforme: componentes de alta frequência (importantes para padrões locais) são preservados enquanto componentes de baixa frequência (dependentes de posição) são interpolados. Isso preserva a capacidade do modelo de lidar com padrões locais (ordem de palavras, sintaxe) enquanto estende seu alcance para codificação de posição global. É uma mudança de uma linha de código que melhora dramaticamente a extrapolação de comprimento.
YaRN (Yet another RoPE extensioN) combina interpolação NTK-aware com uma correção de temperatura de atenção e uma pequena quantidade de ajuste fino em dados de comprimento estendido (tipicamente algumas centenas de passos). Isso produz modelos que lidam com 4–8x seu comprimento de contexto original com degradação mínima de qualidade. A maioria dos modelos open-source de contexto longo (como variantes de contexto longo do Llama ou Mistral) usa YaRN ou técnicas similares. O passo de ajuste fino é crucial — escalonamento sozinho funciona em parte, mas ajuste fino no comprimento alvo melhora significativamente a qualidade.