图像生成是继聊天机器人之后最显眼的消费级 AI 能力。它正在改变平面设计、广告、概念艺术和视觉传达。理解底层方法(扩散、流匹配、DiT)及其权衡有助于你选择正确的工具,并理解其局限性——为什么某些提示有效而其他的无效,为什么某些风格比其他的更容易实现。
主流方法:将文本编码为嵌入向量(通过 CLIP 或 T5),从随机噪声开始,在通过交叉注意力以文本嵌入为条件的同时迭代去噪。每个去噪步骤使图像噪声略有减少并更加接近提示的要求。经过 20–50 步(或使用流匹配则为 4–10 步)后,一张清晰的图像就产生了。模型从数十亿个图像-描述对中学习了文本描述与图像特征之间的统计关系。
除了文本提示,现代图像生成还支持:图像到图像(修改现有图像)、ControlNet(使用边缘图、深度图或姿态引导构图)、修复(重新生成图像的一部分)和风格迁移(将一张图像的美学应用到另一张图像)。这些控制使图像生成在专业工作流中变得实用——当"随机生成某些东西"不够用时,你需要特定的构图、姿态和布局。
图像质量的提升来自三个方面:更好的架构(U-Net 到 DiT)、更好的训练(流匹配优于扩散)和更好的数据(更高分辨率、更好的描述、更多样化)。当前的前沿模型能生成与照片难以区分的照片级真实图像,但仍然在以下方面存在困难:手和手指、文字渲染、空间关系("A 在 B 的左边")以及计数("恰好五个苹果")。这些剩余的挑战是活跃的研究领域。