无论模态如何,每个生成式AI系统在概念层面上都做着类似的事情:它学习训练数据的统计分布,然后从该分布中采样以生成新输出。语言模型学习的是词序列的概率分布——在互联网上所有内容的基础上,下一个词最有可能是什么?图像模型学习的是构成“一张猫的照片”与“一幅日落油画”的像素排列分布。输出不是从数据库中检索的,而是通过逐个词或逐个像素构建的,由学习到的模式引导。这正是生成式AI与搜索引擎或推荐系统真正不同的地方:它生成此前并不存在的内容,这些内容由训练过程中吸收的模式组合而成。
文本生成主要由大型语言模型主导。OpenAI的GPT系列、Anthropic的Claude、Google的Gemini以及Meta的开源Llama系列是主要参与者,数十家小型实验室和开源项目则填补了细分领域。图像生成分为两类:扩散模型(Stability AI的Stable Diffusion、Midjourney、DALL-E 3)和较新的流匹配方法。视频生成出现得较晚,仍更具挑战性——Runway、Pika、Google的Veo以及OpenAI的Sora代表了当前的前沿,但视频生成成本高昂,且在时间一致性方面仍存在问题。音频生成涵盖语音合成(ElevenLabs、OpenAI的语音模型)、音乐创作(Suno、Udio)和音效。代码生成已形成独立类别,GitHub Copilot、Cursor以及各种基于Claude和GPT的代码助手正在改变软件编写方式。3D模型生成是最年轻的模态,Meshy、Tripo以及NVIDIA的研究开始能够从文本或图像提示中生成可用的网格和纹理。所有模态的趋势相同:每六个月质量显著提升,成本下降,“AI生成”与“人类创作”之间的差距逐渐缩小。
生成式AI在主流化之前已经存在多年。2019年GPT-2就能写出连贯的段落。2021年初DALL-E生成了粗糙的图像。但2022年的两次发布彻底改变了局面。2022年8月开源发布的Stable Diffusion让图像生成免费地出现在每个人的笔记本电脑上——一夜之间,数百万人开始创作以前需要专业艺术家或订阅图片库才能完成的图像。随后,2022年11月推出的ChatGPT在两个月内达到1亿用户。变化前后对比鲜明。2022年之前,生成式AI只是NeurIPS会议上讨论的研究奇观。2022年之后,它成为董事会会议、学校政策辩论和家庭餐桌上的热门话题。技术本身一直在逐步改进,但界面突破——使其变得对话式、易用且免费——才是引发文化转变的关键。
商业影响参差不齐但确实存在。内容创作是第一个感受到变化的行业:营销文案、社交媒体帖子、博客文章、产品描述——过去需要作家花费数小时完成的任务,现在只需几秒钟即可完成草稿。客户服务采用聊天机器人和AI助手处理常规查询,仅将复杂案例转交给人类代理。软件开发中生产力提升最为显著,研究表明,开发人员使用AI助手时,代码完成速度提高了30—55%。创意工具全面整合生成式AI:Adobe在Photoshop中添加了生成填充功能,Canva嵌入了文本到图像功能,视频编辑工具开始提供AI驱动的场景生成和编辑功能。这一模式保持一致——生成式AI最适合作为技能娴熟人员的加速器,而非替代者。拥有AI工具的好作家能更快、更多地创作。拥有AI工具的差作家则能更快、更多地写出糟糕的内容。
生成式AI继承了互联网的内容,也继承了互联网的问题。版权是最具法律活跃性的关注点:使用受版权保护的文本、图像和音乐训练的模型正面临《纽约时报》、Getty Images以及数千名从未同意其作品作为训练数据的个人创作者的诉讼。法律结果将塑造整个领域的经济格局。工作替代是真实存在的,但比头条新闻所暗示的要慢——翻译、文案撰写、插图和基础编程等领域对初级人力的需求正在减少,但“AI取代所有人”的叙述尚未实现。虚假信息是一个结构性问题:如果生成令人信服的文本和图像几乎不需要成本,那么看似可信的虚假内容的数量将无限增长。质量泛滥——互联网上AI生成内容的总量——已经降低了搜索结果、社交媒体动态和应用商店的质量。这些不是假设性的风险。它们正在发生,而检测和管理这些风险的工具始终落后于生成内容的工具。