Muestreo: Definición y significado — Wiki de IA

El proceso de seleccionar qué token generar a continuación de la distribución de probabilidad predicha por el modelo. La decodificación greedy siempre elige el token más probable. El muestreo aleatorio elige proporcionalmente a las probabilidades. La temperatura, top-p (nucleus) y top-k son controles que ajustan la aleatoriedad y diversidad de la selección. La estrategia de muestreo afecta dramáticamente la calidad, creatividad y consistencia de la salida.

Por qué importa

Los parámetros de muestreo son las perillas más accesibles para controlar el comportamiento del LLM. Temperatura 0 para generación de código determinista. Temperatura 0.7 para escritura creativa. Top-p 0.9 para un buen equilibrio. Estos no son números mágicos — controlan directamente qué tokens considera el modelo en cada paso. Entender el muestreo te ayuda a ajustar las salidas para tu caso de uso específico.

En profundidad

El pipeline de muestreo: (1) el modelo produce logits para todos los tokens del vocabulario, (2) el escalado de temperatura divide los logits por T, (3) el filtrado top-k mantiene solo los k logits más altos (establece el resto a −∞), (4) el filtrado top-p mantiene el conjunto más pequeño de tokens cuya probabilidad acumulada excede p, (5) softmax convierte los logits filtrados en probabilidades, (6) se muestrea aleatoriamente un token de esta distribución. Los pasos 3 y 4 son opcionales y pueden combinarse.

Elegir Parámetros

Para tareas factuales/código: temperatura 0 (o muy baja), sin top-p/top-k. Quieres los tokens más probables. Para escritura creativa: temperatura 0.7–1.0, top-p 0.9–0.95. Quieres diversidad sin incoherencia. Para lluvia de ideas: temperatura 1.0+, top-p más amplio. Quieres conexiones sorprendentes e inesperadas. La idea clave: no hay una mejor configuración universal. Diferentes tareas necesitan diferentes estrategias de muestreo, y los parámetros óptimos también varían según el modelo.

Más Allá del Muestreo Simple

Las estrategias avanzadas incluyen: beam search (mantener múltiples secuencias candidatas, elegir la mejor en general — bueno para traducción, menos útil para generación abierta), decodificación contrastiva (impulsar tokens donde un modelo grande supera a uno pequeño), y muestreo min-p (umbral dinámico que mantiene tokens con probabilidad por encima de una fracción de la probabilidad del token superior). Estas técnicas abordan modos de fallo específicos del muestreo simple, como bucles de repetición o salidas degeneradas.

Muestreo

Por qué importa

En profundidad

Elegir Parámetros

Más Allá del Muestreo Simple

Conceptos relacionados