Le pipeline d'échantillonnage : (1) le modèle produit des logits pour tous les tokens du vocabulaire, (2) la mise à l'échelle par température divise les logits par T, (3) le filtrage top-k ne garde que les k logits les plus élevés (mettant le reste à −∞), (4) le filtrage top-p ne garde que le plus petit ensemble de tokens dont la probabilité cumulée dépasse p, (5) le softmax convertit les logits filtrés en probabilités, (6) un token est échantillonné aléatoirement de cette distribution. Les étapes 3 et 4 sont optionnelles et peuvent être combinées.
Pour les tâches factuelles/code : température 0 (ou très basse), pas de top-p/top-k. Tu veux les tokens les plus probables. Pour l'écriture créative : température 0,7–1,0, top-p 0,9–0,95. Tu veux de la diversité sans incohérence. Pour le brainstorming : température 1,0+, top-p plus large. Tu veux des connexions surprenantes et inattendues. L'insight clé : il n'y a pas de réglage universel optimal. Différentes tâches nécessitent différentes stratégies d'échantillonnage, et les paramètres optimaux varient aussi selon le modèle.
Les stratégies avancées incluent : la recherche par faisceau (maintenir plusieurs séquences candidates, choisir la meilleure globalement — bon pour la traduction, moins utile pour la génération ouverte), le décodage contrastif (amplifier les tokens où un grand modèle surpasse un petit), et l'échantillonnage min-p (seuil dynamique qui garde les tokens avec une probabilité au-dessus d'une fraction de la probabilité du token le plus probable). Ces techniques adressent des modes de défaillance spécifiques de l'échantillonnage simple, comme les boucles de répétition ou les sorties dégénérées.