El objetivo de pre-entrenamiento dominante para modelos de lenguaje es la predicción del siguiente token: dada una secuencia de tokens, predecir qué viene después. El modelo procesa billones de tokens del corpus de entrenamiento, y para cada token, calcula una distribución de probabilidad sobre todo el vocabulario y es penalizado (vía cross-entropy loss) por asignar baja probabilidad al token siguiente real. Este objetivo engañosamente simple resulta ser extraordinariamente poderoso — para predecir bien la siguiente palabra en contextos diversos, el modelo debe aprender implícitamente gramática, hechos, patrones de razonamiento, convenciones de codificación y mucho más. La pérdida comienza alta (esencialmente adivinando al azar entre un vocabulario de 32,000-128,000 tokens) y gradualmente disminuye a medida que el modelo internaliza la estructura estadística del lenguaje. Para modelos basados en transformer, esta es la receta estándar. Arquitecturas alternativas como los state-space models (Mamba, RWKV) usan el mismo objetivo pero reemplazan el mecanismo de atención con actualizaciones de estado recurrentes, logrando calidad comparable con mejor escalamiento computacional en secuencias largas.
La escala del pre-entrenamiento moderno es asombrosa y ha estado duplicándose aproximadamente cada 6-9 meses. GPT-3 (2020) entrenó con 300 mil millones de tokens. LLaMA 2 (2023) usó 2 billones. LLaMA 3 (2024) usó más de 15 billones. El cómputo se mide en operaciones de punto flotante, y un entrenamiento de frontera podría requerir 10^25 FLOPs — un número que se traduce en miles de GPUs corriendo por meses y cuesta decenas de millones de dólares solo en electricidad y hardware. El entrenamiento se distribuye a través de GPUs usando técnicas como paralelismo de datos (cada GPU procesa diferentes lotes de datos), paralelismo de tensores (la computación de cada capa se divide entre GPUs) y paralelismo de pipeline (diferentes capas viven en diferentes GPUs). Frameworks como Megatron-LM, DeepSpeed y FSDP (Fully Sharded Data Parallel de PyTorch) manejan la complejidad de mantener miles de GPUs sincronizados, pero los fallos son comunes — errores de hardware, problemas de red e inestabilidades numéricas significan que los entrenamientos grandes requieren checkpointing robusto y recuperación automática.
No todos los pre-entrenamientos son iguales, y los detalles de la receta de entrenamiento importan tanto como los datos y el cómputo. El esquema de learning rate es típicamente una fase de calentamiento (aumentando linealmente el learning rate durante los primeros miles de pasos) seguida de un decaimiento coseno hasta cerca de cero. El tamaño de batch a menudo aumenta durante el entrenamiento — empezando pequeño para actualizaciones de gradiente más frecuentes y ruidosas y creciendo para un entrenamiento más estable en etapas posteriores. La longitud de secuencia (cuántos tokens ve el modelo a la vez) tiene un impacto importante en lo que el modelo aprende: secuencias más largas le permiten capturar dependencias de mayor alcance pero cuestan cuadráticamente más memoria para modelos basados en atención. Muchos equipos ahora usan entrenamiento con longitud de secuencia progresiva, empezando con contextos más cortos y aumentando a la ventana de contexto completa después. El optimizador es casi universalmente AdamW, aunque enfoques más nuevos como SOAP y Muon están ganando tracción por sus propiedades de convergencia potencialmente mejores.
El pre-entrenamiento ya no es una sola fase monolítica. Los pipelines de entrenamiento modernos a menudo incluyen múltiples etapas con diferentes mezclas de datos. La fase principal de pre-entrenamiento usa un corpus amplio, luego una fase de “entrenamiento intermedio” o “pre-entrenamiento continuado” usa una mezcla de datos de mayor calidad o más específica por dominio, a veces con longitudes de contexto más largas. Así es como los modelos aprenden a manejar documentos largos efectivamente — entrenar con secuencias de 128K tokens desde el principio sería prohibitivamente costoso, pero una fase corta de fine-tuning con datos de contexto largo al final funciona sorprendentemente bien. Después del pre-entrenamiento viene el supervised fine-tuning (SFT) con datos de instrucciones, luego el alineamiento vía RLHF o DPO. Cada etapa construye sobre la anterior, y los límites entre ellas están cada vez más difuminados. Lo que solía ser un pipeline limpio de tres pasos (pre-entrenar, SFT, RLHF) ahora es un currículo multietapa con mezclas de datos, learning rates y objetivos distintos en cada fase.