Token : Définition et signification — Wiki IA

Le processus de sélection du prochain token à générer à partir de la distribution de probabilité prédite par le modèle. Le décodage glouton choisit toujours le token le plus probable. L'échantillonnage aléatoire choisit proportionnellement aux probabilités. La température, le top-p (noyau) et le top-k sont des contrôles qui ajustent l'aléatoire et la diversité de la sélection. La stratégie d'échantillonnage affecte dramatiquement la qualité, la créativité et la cohérence de la sortie.

Pourquoi c'est important

Les paramètres d'échantillonnage sont les leviers les plus accessibles pour contrôler le comportement des LLM. Température 0 pour la génération de code déterministe. Température 0,7 pour l'écriture créative. Top-p 0,9 pour un bon équilibre. Ce ne sont pas des nombres magiques — ils contrôlent directement quels tokens le modèle considère à chaque étape. Comprendre l'échantillonnage t'aide à ajuster les sorties pour ton cas d'usage spécifique.

En profondeur

Le pipeline d'échantillonnage : (1) le modèle produit des logits pour tous les tokens du vocabulaire, (2) la mise à l'échelle par température divise les logits par T, (3) le filtrage top-k ne garde que les k logits les plus élevés (mettant le reste à −∞), (4) le filtrage top-p ne garde que le plus petit ensemble de tokens dont la probabilité cumulée dépasse p, (5) le softmax convertit les logits filtrés en probabilités, (6) un token est échantillonné aléatoirement de cette distribution. Les étapes 3 et 4 sont optionnelles et peuvent être combinées.

Choisir les paramètres

Pour les tâches factuelles/code : température 0 (ou très basse), pas de top-p/top-k. Tu veux les tokens les plus probables. Pour l'écriture créative : température 0,7–1,0, top-p 0,9–0,95. Tu veux de la diversité sans incohérence. Pour le brainstorming : température 1,0+, top-p plus large. Tu veux des connexions surprenantes et inattendues. L'insight clé : il n'y a pas de réglage universel optimal. Différentes tâches nécessitent différentes stratégies d'échantillonnage, et les paramètres optimaux varient aussi selon le modèle.

Au-delà de l'échantillonnage simple

Les stratégies avancées incluent : la recherche par faisceau (maintenir plusieurs séquences candidates, choisir la meilleure globalement — bon pour la traduction, moins utile pour la génération ouverte), le décodage contrastif (amplifier les tokens où un grand modèle surpasse un petit), et l'échantillonnage min-p (seuil dynamique qui garde les tokens avec une probabilité au-dessus d'une fraction de la probabilité du token le plus probable). Ces techniques adressent des modes de défaillance spécifiques de l'échantillonnage simple, comme les boucles de répétition ou les sorties dégénérées.

Échantillonnage

Pourquoi c'est important

En profondeur

Choisir les paramètres

Au-delà de l'échantillonnage simple

Concepts connexes