Zubnet AIAprenderWiki › Ajuste de Hiperparámetros
Entrenamiento

Ajuste de Hiperparámetros

También conocido como: HPO, Optimización de Hiperparámetros, Grid Search
Buscar sistemáticamente los mejores hiperparámetros — las opciones de configuración que no se aprenden durante el entrenamiento sino que deben establecerse antes de que comience. Tasa de aprendizaje, tamaño de batch, número de capas, tasa de dropout y rango de LoRA son todos hiperparámetros. Los métodos de ajuste incluyen grid search (probar todas las combinaciones), random search (probar combinaciones aleatorias) y optimización bayesiana (usar resultados pasados para guiar la búsqueda).

Por qué importa

La diferencia entre un buen y mal conjunto de hiperparámetros puede ser enorme — una tasa de aprendizaje incorrecta puede hacer que el entrenamiento diverja o converja a una solución pobre. El ajuste de hiperparámetros es cómo sacas el máximo provecho de tu arquitectura de modelo y datos. Para ajustar LLMs, la tasa de aprendizaje y el número de épocas son típicamente los hiperparámetros más impactantes para ajustar.

En profundidad

Grid search evalúa cada combinación de valores de hiperparámetros especificados: tasas de aprendizaje [1e-3, 1e-4, 1e-5] × tamaños de batch [16, 32, 64] = 9 experimentos. Es exhaustivo pero exponencialmente costoso a medida que se agregan más hiperparámetros. Random search muestrea combinaciones aleatorias de rangos especificados — sorprendentemente, a menudo encuentra mejores configuraciones que grid search porque explora el espacio más uniformemente (Bergstra & Bengio, 2012).

Optimización bayesiana

La optimización bayesiana usa un modelo probabilístico (típicamente un proceso gaussiano o modelo basado en árboles) para predecir qué hiperparámetros tienen probabilidad de funcionar bien basándose en experimentos pasados, luego prioriza esas regiones. Librerías como Optuna, Ray Tune y W&B Sweeps implementan esto. Para experimentos costosos (entrenar un modelo toma horas), la ventaja de eficiencia de la optimización bayesiana sobre random search es significativa — típicamente encuentra buenas configuraciones en 3–5x menos experimentos.

Consejos prácticos

Comienza con valores predeterminados establecidos para tu arquitectura (tasas de aprendizaje publicadas, tamaños de batch, etc.), luego ajusta los parámetros más impactantes primero. Para ajuste fino de LLMs, la tasa de aprendizaje es casi siempre la más importante (prueba de 1e-5 a 5e-4). Para LoRA, el rango (4–64) y alpha (típicamente 2× rango) importan más. Usa parada temprana para cortar experimentos poco prometedores. Registra todo en W&B o similar — querrás comparar ejecuciones y entender qué funcionó.

← Todos los términos