Température : Définition et signification — Wiki IA

Un paramètre qui contrôle le degré d'aléatoire ou de déterminisme de la sortie d'un modèle. La température 0 fait que le modèle choisit toujours le prochain token le plus probable (déterministe, focalisé). La température 1+ le rend plus enclin à choisir des tokens moins probables (créatif, imprévisible). La plupart des API utilisent par défaut environ 0,7.

Pourquoi c’est important

La température est le bouton de créativité. Écrire de la fiction ? Montez-la. Générer du code ou des réponses factuelles ? Baissez-la. C'est l'un des paramètres les plus impactants que vous pouvez ajuster, et expérimenter ne coûte rien.

En profondeur

Pour comprendre la température, il faut savoir ce qui se passe juste avant qu'un modèle ne produise un token. Le modèle produit un vecteur de scores bruts (appelés logits) — un score pour chaque token de son vocabulaire, qui peut compter de 32 000 à 128 000 entrées. Ces logits sont ensuite divisés par la valeur de température et passés dans une fonction softmax, qui les convertit en distribution de probabilité. Quand la température est de 1,0, le softmax opère sur les logits bruts tels quels. Quand la température est de 0,5, les logits sont effectivement doublés avant le softmax, ce qui rend la distribution de probabilité plus nette — le token le plus probable obtient une part encore plus grande de la probabilité. Quand la température est de 2,0, les logits sont divisés par deux, ce qui aplatit la distribution et donne aux tokens moins probables une meilleure chance d'être sélectionnés.

Le réglage à zéro

La température 0 est un cas spécial que la plupart des fournisseurs d'API implémentent comme décodage glouton — toujours choisir le token à la probabilité la plus élevée, sans échantillonnage. Cela rend la sortie déterministe (ou presque ; certains fournisseurs ajoutent un minuscule bruit de virgule flottante). C'est le bon choix quand vous voulez des résultats reproductibles : extraction de données structurées, tâches de classification, questions-réponses factuelles, ou tout contexte où la « créativité » est un handicap. Un patron de production courant est d'utiliser la température 0 pour tous les pipelines automatisés et de réserver les températures plus élevées pour les fonctionnalités créatives destinées aux utilisateurs.

La température interagit avec un autre paramètre d'échantillonnage appelé top-p (échantillonnage par noyau) d'une manière qui piège les gens. Le top-p limite la sélection de tokens au plus petit ensemble de tokens dont la probabilité cumulée dépasse le seuil p. Régler la température à 0,7 avec un top-p de 0,9 est différent d'une température de 1,0 avec un top-p de 0,7, même si les deux visent un « aléatoire modéré ». La plupart des praticiens recommandent d'ajuster l'un ou l'autre, pas les deux simultanément, parce que l'interaction est difficile à raisonner. L'API d'Anthropic utilise par défaut une température de 1,0 avec un top-p de 1,0 pour Claude. OpenAI utilise par défaut une température de 1,0 avec un top-p de 1,0 pour les modèles GPT. Si vous ajustez les deux en même temps, vous compliquez probablement les choses inutilement.

Le point idéal

La bonne température dépend de la tâche, et le conseil « 0,7 convient à tout » est une simplification excessive. Pour la génération de code, la plupart des développeurs trouvent que 0-0,3 produit les résultats les plus fiables. Pour les assistants conversationnels, 0,5-0,8 donne une variété naturelle sans déraper. Pour l'écriture créative, le brainstorming ou la génération d'options diverses, 0,9-1,2 fonctionne bien. Au-dessus de 1,5, la sortie produit un résultat de plus en plus incohérent qui est rarement utile en pratique. Certains modèles prennent techniquement en charge des températures au-dessus de 2,0, mais la qualité de la sortie se dégrade rapidement — cela commence à ressembler à une soupe de tokens aléatoires plutôt qu'à du texte créatif.

Aléatoire vs. créativité

Un point subtil mais important : la température affecte l'aléatoire au niveau des tokens, pas la créativité au niveau des idées. Une température plus élevée ne fait pas le modèle « penser plus créativement » dans un sens significatif — elle le rend plus susceptible de choisir des mots inattendus. Parfois cela produit des combinaisons véritablement originales. D'autres fois, cela produit simplement des erreurs grammaticales, des incohérences ou des hallucinations. Si vous voulez des approches véritablement différentes pour un problème, vous êtes souvent mieux servi en exécutant le même prompt plusieurs fois à température modérée (disons 0,8) et en comparant les résultats, plutôt que de monter la température à 1,5 en espérant le meilleur. C'est le principe derrière des techniques comme l'auto-cohérence et l'échantillonnage best-of-N, qui utilisent une température modérée avec plusieurs échantillons pour obtenir à la fois diversité et qualité.

Température

Pourquoi c’est important

En profondeur

Le réglage à zéro

Le point idéal

Aléatoire vs. créativité

Concepts connexes