图像生成：定义与含义 — AI 维基

使用 AI 模型根据文本描述创建图像。你输入“水彩风格的山上日落”，模型就生成一张匹配的图像。当前的方法包括扩散模型（Stable Diffusion、DALL-E）、流匹配（Flux）和自回归模型。该领域已从 2020 年的模糊人脸发展到 2025 年的照片级真实、可艺术控制的输出。

为什么重要

图像生成是继聊天机器人之后最显眼的消费级 AI 能力。它正在改变平面设计、广告、概念艺术和视觉传达。理解底层方法（扩散、流匹配、DiT）及其权衡有助于你选择正确的工具，并理解其局限性——为什么某些提示有效而其他的无效，为什么某些风格比其他的更容易实现。

深度解析

主流方法：将文本编码为嵌入向量（通过 CLIP 或 T5），从随机噪声开始，在通过交叉注意力以文本嵌入为条件的同时迭代去噪。每个去噪步骤使图像噪声略有减少并更加接近提示的要求。经过 20–50 步（或使用流匹配则为 4–10 步）后，一张清晰的图像就产生了。模型从数十亿个图像-描述对中学习了文本描述与图像特征之间的统计关系。

控制与条件化

除了文本提示，现代图像生成还支持：图像到图像（修改现有图像）、ControlNet（使用边缘图、深度图或姿态引导构图）、修复（重新生成图像的一部分）和风格迁移（将一张图像的美学应用到另一张图像）。这些控制使图像生成在专业工作流中变得实用——当"随机生成某些东西"不够用时，你需要特定的构图、姿态和布局。

质量前沿

图像质量的提升来自三个方面：更好的架构（U-Net 到 DiT）、更好的训练（流匹配优于扩散）和更好的数据（更高分辨率、更好的描述、更多样化）。当前的前沿模型能生成与照片难以区分的照片级真实图像，但仍然在以下方面存在困难：手和手指、文字渲染、空间关系（"A 在 B 的左边"）以及计数（"恰好五个苹果"）。这些剩余的挑战是活跃的研究领域。

图像生成

为什么重要

深度解析

控制与条件化

质量前沿

相关概念