Zubnet AIAprenderWiki › Extensão de Comprimento de Contexto
Infraestrutura

Extensão de Comprimento de Contexto

Também conhecido como: YaRN, NTK Scaling, RoPE Scaling
Técnicas que permitem a modelos de linguagem lidar com sequências mais longas do que as vistas durante o treinamento. Um modelo treinado em 4K tokens pode ser estendido para 32K ou 128K através de modificações em sua codificação posicional (tipicamente RoPE) combinadas com ajuste fino curto em sequências mais longas. Isso evita o enorme custo de treinar do zero em sequências longas.

Por que isso importa

A extensão de comprimento de contexto é o motivo pelo qual modelos passaram de janelas de contexto de 4K para 128K e até 1M+ em apenas dois anos. O custo de treinar um modelo do zero em sequências de milhões de tokens seria proibitivo. Técnicas de extensão tornam modelos de contexto longo práticos adaptando modelos treinados em sequências mais curtas, exigindo apenas uma fração da computação original de treinamento.

Em profundidade

O desafio central: RoPE (Rotary Position Embeddings) codifica posição usando ângulos de rotação. Em posições além do comprimento de treinamento, esses ângulos se tornam extrapolações que o modelo nunca viu, causando a quebra dos padrões de atenção. Técnicas de extensão modificam como posições mapeiam para ângulos de rotação para que sequências mais longas produzam ângulos dentro do intervalo treinado do modelo.

NTK-Aware Scaling

A interpolação NTK-aware (Neural Tangent Kernel) ajusta frequências de RoPE de forma não-uniforme: componentes de alta frequência (importantes para padrões locais) são preservados enquanto componentes de baixa frequência (dependentes de posição) são interpolados. Isso preserva a capacidade do modelo de lidar com padrões locais (ordem de palavras, sintaxe) enquanto estende seu alcance para codificação de posição global. É uma mudança de uma linha de código que melhora dramaticamente a extrapolação de comprimento.

YaRN

YaRN (Yet another RoPE extensioN) combina interpolação NTK-aware com uma correção de temperatura de atenção e uma pequena quantidade de ajuste fino em dados de comprimento estendido (tipicamente algumas centenas de passos). Isso produz modelos que lidam com 4–8x seu comprimento de contexto original com degradação mínima de qualidade. A maioria dos modelos open-source de contexto longo (como variantes de contexto longo do Llama ou Mistral) usa YaRN ou técnicas similares. O passo de ajuste fino é crucial — escalonamento sozinho funciona em parte, mas ajuste fino no comprimento alvo melhora significativamente a qualidade.

Conceitos relacionados

← Todos os termos
← Esquecimento Catastrófico Feature →