El pipeline de muestreo: (1) el modelo produce logits para todos los tokens del vocabulario, (2) el escalado de temperatura divide los logits por T, (3) el filtrado top-k mantiene solo los k logits más altos (establece el resto a −∞), (4) el filtrado top-p mantiene el conjunto más pequeño de tokens cuya probabilidad acumulada excede p, (5) softmax convierte los logits filtrados en probabilidades, (6) se muestrea aleatoriamente un token de esta distribución. Los pasos 3 y 4 son opcionales y pueden combinarse.
Para tareas factuales/código: temperatura 0 (o muy baja), sin top-p/top-k. Quieres los tokens más probables. Para escritura creativa: temperatura 0.7–1.0, top-p 0.9–0.95. Quieres diversidad sin incoherencia. Para lluvia de ideas: temperatura 1.0+, top-p más amplio. Quieres conexiones sorprendentes e inesperadas. La idea clave: no hay una mejor configuración universal. Diferentes tareas necesitan diferentes estrategias de muestreo, y los parámetros óptimos también varían según el modelo.
Las estrategias avanzadas incluyen: beam search (mantener múltiples secuencias candidatas, elegir la mejor en general — bueno para traducción, menos útil para generación abierta), decodificación contrastiva (impulsar tokens donde un modelo grande supera a uno pequeño), y muestreo min-p (umbral dinámico que mantiene tokens con probabilidad por encima de una fracción de la probabilidad del token superior). Estas técnicas abordan modos de fallo específicos del muestreo simple, como bucles de repetición o salidas degeneradas.