Échelle de guidage : Définition et signification — Wiki IA

Un paramètre qui contrôle la force avec laquelle un modèle de génération d'images suit le prompt textuel. Guidage faible (1–3) : le modèle génère librement, produisant des images diversifiées mais potentiellement hors sujet. Guidage élevé (7–15) : le modèle suit strictement le prompt mais peut produire des images saturées et pleines d'artefacts. Le point optimal est typiquement 7–9. C'est l'équivalent en génération d'images de la température pour les modèles textuels.

Pourquoi c'est important

L'échelle de guidage est le paramètre le plus impactant en génération d'images après le prompt lui-même. Trop bas et l'image ignore ta description. Trop haut et elle a l'air sursaturée et artificielle. Comprendre l'échelle de guidage t'aide à diagnostiquer « pourquoi mon image ne correspond pas à mon prompt ? » (guidage trop bas) et « pourquoi mon image a l'air bizarre ? » (guidage trop haut).

En profondeur

Le classifier-free guidance (Ho & Salimans, 2022) fonctionne en calculant deux prédictions de débruitage par étape : une conditionnelle (utilisant ton prompt) et une inconditionnelle (ignorant le prompt). La prédiction finale amplifie la différence : sortie = inconditionnel + échelle × (conditionnel − inconditionnel). Échelle=1 signifie pas de guidage (juste la prédiction conditionnelle). Échelle=7 signifie que le modèle amplifie l'influence du prompt 7 fois au-delà de ce qu'il ferait naturellement.

Pourquoi plus haut n'est pas toujours mieux

Un guidage plus élevé rend l'image plus « alignée au prompt » mais à un coût : le modèle dépasse, produisant des couleurs sursaturées, un éclairage irréaliste et des artefacts visuels. Un guidage très élevé (15+) produit souvent des images qui ont l'air d'avoir subi un filtre de netteté — correspondant techniquement au prompt mais esthétiquement pauvres. Le point optimal dépend du modèle : SD 1.5 fonctionne bien à 7–9, SDXL à 5–8 et Flux à 3–5.

CFG dynamique et négatif

Des techniques avancées manipulent le guidage pendant la génération : commencer avec un guidage élevé (pour établir la composition) et le réduire aux étapes ultérieures (pour affiner les détails naturellement). Le CFG négatif (échelle de guidage inférieure à 1) inverse l'effet du prompt, générant l'opposé de ce qui est décrit — utile pour comprendre ce que le modèle associe à des concepts spécifiques mais rarement utile pour la génération d'images réelle.