ControlNet : Définition et signification — Wiki IA

Une architecture qui ajoute un contrôle spatial aux modèles de génération d'images. Au lieu de simplement décrire ce que tu veux en texte ("une personne debout"), ControlNet te permet de spécifier comment — en fournissant une carte de contours, une carte de profondeur, un squelette de pose ou une carte de segmentation qui guide la composition. L'image générée suit la structure spatiale de ton entrée de contrôle tout en remplissant les détails à partir du prompt textuel.

Pourquoi c'est important

ControlNet a rendu la génération d'images par IA utilisable pour les workflows professionnels. Sans lui, tu obtiens des compositions aléatoires et tu espères le meilleur. Avec lui, tu spécifies la pose, la disposition ou la structure exacte dont tu as besoin. C'est la différence entre "génère quelque chose qui ressemble vaguement à ce que je veux" et "génère exactement cette composition avec ces détails" — crucial pour le design, la publicité et le travail de production.

En profondeur

ControlNet (Zhang et al., 2023) fonctionne en créant une copie entraînable de l'encodeur du modèle de diffusion et en la connectant au modèle original via des couches de convolution initialisées à zéro. Le signal de contrôle (carte de contours, pose, profondeur) est traité par cette copie, et les features sont ajoutées aux couches correspondantes du modèle principal. L'initialisation à zéro signifie que le contrôle commence sans effet et apprend graduellement à guider la génération pendant l'entraînement, préservant la qualité du modèle original.

Types de contrôle

Entrées de contrôle courantes : contours Canny (structure du contour), OpenPose (pose du corps humain), cartes de profondeur (structure 3D), cartes de segmentation (quelle région est quoi), cartes de normales (orientation des surfaces), et croquis (esquisses grossières). Chaque type de contrôle nécessite un ControlNet entraîné séparément. Plusieurs contrôles peuvent être combinés : un squelette de pose plus une carte de contours te donne à la fois la position du corps et les détails structurels.

IP-Adapter et au-delà

Au-delà du contrôle spatial, des techniques comme IP-Adapter fournissent un contrôle de style : donne une image de référence et génère de nouvelles images dans le même style. T2I-Adapter est une alternative plus légère à ControlNet qui atteint un contrôle similaire avec moins de paramètres. La tendance est vers un contrôle de plus en plus précis et composable — spécifier exactement ce que tu veux à travers une combinaison de texte, de guides spatiaux, de références de style et de raffinement itératif.

ControlNet

Pourquoi c'est important

En profondeur

Types de contrôle

IP-Adapter et au-delà

Concepts connexes