Extensión de Longitud de Contexto: Definición y significado — Wiki de IA

Técnicas que permiten a los modelos de lenguaje manejar secuencias más largas que las vistas durante el entrenamiento. Un modelo entrenado con 4K tokens puede extenderse a 32K o 128K mediante modificaciones a su codificación posicional (típicamente RoPE) combinadas con un breve ajuste fino en secuencias más largas. Esto evita el costo enorme de entrenar desde cero en secuencias largas.

Por qué importa

La extensión de longitud de contexto es la razón por la que los modelos han pasado de 4K a 128K a más de 1M de tokens de ventana de contexto en solo dos años. El costo de entrenar un modelo desde cero con secuencias de un millón de tokens sería prohibitivo. Las técnicas de extensión hacen prácticos los modelos de contexto largo adaptando modelos entrenados con secuencias más cortas, requiriendo solo una fracción del cómputo de entrenamiento original.

En profundidad

El desafío central: RoPE (Rotary Position Embeddings) codifica la posición usando ángulos de rotación. En posiciones más allá de la longitud de entrenamiento, estos ángulos se convierten en extrapolaciones que el modelo nunca ha visto, causando que los patrones de atención se rompan. Las técnicas de extensión modifican cómo las posiciones se mapean a ángulos de rotación para que las secuencias más largas produzcan ángulos dentro del rango entrenado del modelo.

Escalado NTK-Aware

La interpolación NTK-aware (Neural Tangent Kernel) ajusta las frecuencias de RoPE de forma no uniforme: los componentes de alta frecuencia (importantes para patrones locales) se preservan mientras los componentes de baja frecuencia (dependientes de posición) se interpolan. Esto preserva la capacidad del modelo para manejar patrones locales (orden de palabras, sintaxis) mientras extiende su rango para la codificación de posición global. Es un cambio de una línea de código que mejora dramáticamente la extrapolación de longitud.

YaRN

YaRN (Yet another RoPE extensioN) combina interpolación NTK-aware con una corrección de temperatura de atención y una pequeña cantidad de ajuste fino en datos de longitud extendida (típicamente unos cientos de pasos). Esto produce modelos que manejan 4–8x su longitud de contexto original con degradación mínima de calidad. La mayoría de los modelos de código abierto de contexto largo (como variantes de Llama o Mistral de contexto largo) usan YaRN o técnicas similares. El paso de ajuste fino es crucial — el escalado solo funciona hasta cierto punto, pero el ajuste fino a la longitud objetivo mejora significativamente la calidad.

Extensión de Longitud de Contexto

Por qué importa

En profundidad

Escalado NTK-Aware

YaRN

Conceptos relacionados