Zubnet AIApprendreWiki › ControlNet
Models

ControlNet

Une architecture qui ajoute du contrôle spatial aux modèles de génération d'images. Au lieu de juste décrire ce que tu veux en texte (« une personne debout »), ControlNet te laisse spécifier comment — en fournissant une edge map, une depth map, un squelette de pose, ou une segmentation map qui guide la composition. L'image générée suit la structure spatiale de ton input de contrôle tout en remplissant les détails à partir du prompt textuel.

Pourquoi c'est important

ControlNet a rendu la génération d'images IA utilisable pour les workflows professionnels. Sans lui, tu obtiens des compositions aléatoires et tu espères pour le mieux. Avec lui, tu spécifies la pose, la mise en page ou la structure exactes dont tu as besoin. C'est la différence entre « génère quelque chose vaguement comme ce que je veux » et « génère exactement cette composition avec ces détails » — critique pour le design, la pub et le travail de production.

Deep Dive

ControlNet (Zhang et al., 2023) works by creating a trainable copy of the diffusion model's encoder and connecting it to the original model via zero-initialized convolution layers. The control signal (edge map, pose, depth) is processed by this copy, and the features are added to the main model's corresponding layers. The zero initialization means the control starts with no effect and gradually learns to guide generation during training, preserving the original model's quality.

Control Types

Common control inputs: Canny edges (outline structure), OpenPose (human body pose), depth maps (3D structure), segmentation maps (which region is what), normal maps (surface orientation), and scribbles (rough sketches). Each control type requires a separately trained ControlNet. Multiple controls can be combined: a pose skeleton plus an edge map gives you both body position and structural details.

IP-Adapter and Beyond

Beyond spatial control, techniques like IP-Adapter provide style control: give a reference image and generate new images in the same style. T2I-Adapter is a lighter alternative to ControlNet that achieves similar control with fewer parameters. The trend is toward increasingly precise, composable control — specifying exactly what you want through a combination of text, spatial guides, style references, and iterative refinement.

Concepts liés

← Tous les termes
← Contrastive Apprendreing Copyright in AI →