Le classifier-free guidance (Ho & Salimans, 2022) fonctionne en calculant deux prédictions de débruitage par étape : une conditionnelle (utilisant ton prompt) et une inconditionnelle (ignorant le prompt). La prédiction finale amplifie la différence : sortie = inconditionnel + échelle × (conditionnel − inconditionnel). Échelle=1 signifie pas de guidage (juste la prédiction conditionnelle). Échelle=7 signifie que le modèle amplifie l'influence du prompt 7 fois au-delà de ce qu'il ferait naturellement.
Un guidage plus élevé rend l'image plus « alignée au prompt » mais à un coût : le modèle dépasse, produisant des couleurs sursaturées, un éclairage irréaliste et des artefacts visuels. Un guidage très élevé (15+) produit souvent des images qui ont l'air d'avoir subi un filtre de netteté — correspondant techniquement au prompt mais esthétiquement pauvres. Le point optimal dépend du modèle : SD 1.5 fonctionne bien à 7–9, SDXL à 5–8 et Flux à 3–5.
Des techniques avancées manipulent le guidage pendant la génération : commencer avec un guidage élevé (pour établir la composition) et le réduire aux étapes ultérieures (pour affiner les détails naturellement). Le CFG négatif (échelle de guidage inférieure à 1) inverse l'effet du prompt, générant l'opposé de ce qui est décrit — utile pour comprendre ce que le modèle associe à des concepts spécifiques mais rarement utile pour la génération d'images réelle.