深度伪造：定义与含义 — AI 维基

AI生成的图像、视频或音频，旨在逼真地描绘真实人物说或做他们从未做过的事情。最初基于GAN技术，现代深度伪造技术如今使用扩散模型和语音克隆来生成内容，这些内容与现实的差异越来越难以分辨。检测工具虽然存在，但始终落后于生成能力。

为什么重要

深度伪造是生成式人工智能创造力的阴暗面。它们已被用于欺诈、非自愿亲密影像、政治操控和身份盗窃。这项技术如今已足够易用，任何拥有笔记本电脑的人都可以制作令人信服的伪造内容，使得检测、数字水印和法律框架成为亟需优先解决的问题。

深度解析

“深度伪造”（deepfake）一词大约在2017年进入公众视野，当时一名Reddit用户利用神经网络将名人面孔替换到色情视频中。这种早期技术依赖于自编码器——分别训练两个网络处理两张不同的人脸，然后交换解码器以将一张脸映射到另一张脸上。这种技术非常粗糙，需要数小时的源素材，并且在发际线和下颌线周围会产生明显的伪影。在短短七年时间里，这项技术从一种小众的奇技逐渐发展为工业级能力。现代换脸工具使用扩散模型，仅需一张参考照片即可完成。像ElevenLabs这样的公司提供的语音克隆服务，仅凭30秒的样本就能生成令人信服的某人声音复制品。通过文本提示生成完整视频——例如Sora、Kling或Vidu——可以创造出从未存在过的人做着从未发生过的事情的影像。

检测技术的军备竞赛

每一种深度伪造检测方法都面临相同的结构性劣势：它仅能检测当前一代合成工具产生的伪影，而下一代工具会消除这些伪影。早期的检测方法寻找不一致的眨眼模式，但生成器很快学会了制造自然的眨眼。频域分析能捕捉到GAN时代的伪影，但扩散模型会产生不同的频谱特征。最稳健的方法是寻找生理信号——皮肤中的微妙血流模式、眼睛中光反射的物理特性，或说话时牙齿和舌头运动的不一致之处——但即使这些方法也有使用寿命。Hive、Sensity和Reality Defender等公司提供商业检测服务，但它们对最先进生成工具的检测准确率随着时间推移实际上在下降。令人不安的真相是，仅靠像素级检测无法解决这个问题。

出处验证优于检测

更具有前景的长期解决方案是出处验证：证明媒体的来源，而不是事后试图证明其被伪造。内容出处与真实性联盟（C2PA）已开发出一种标准，用于在拍摄时对媒体进行加密签名。索尼、尼康和徕卡等相机制造商已推出嵌入C2PA签名的传感器硬件。Adobe、微软和谷歌已在平台层面采用该标准。其理念非常直接——如果一张照片携带从相机传感器到发布过程的可验证的保管链，即使AI生成的替代品像素完美，你也能知道它是真实的。挑战在于普及率。目前大多数在线分享的照片都是截图、裁剪和重新上传，这些操作会剥离元数据。构建一个出处验证普遍且可用的世界需要基础设施的改变，而这将需要数年时间。

现实中的危害

深度伪造造成的实际损害并不均衡分布。最常见的用途是未经同意的亲密影像，且绝大多数受害者是女性。研究发现，网络上超过90%的深度伪造视频属于未经同意的色情内容。除此之外，语音克隆欺诈已被用于冒充高管进行电汇诈骗，给公司造成数百万美元损失。政治性深度伪造视频出现在斯洛伐克、孟加拉国、阿根廷和美国的选举中，尽管其对选举结果的实际影响尚存争议。新兴的前沿领域是实时视频通话中的深度伪造，攻击者在实时对话中以可信同事的身份出现。2024年初，一家香港公司因员工被深度伪造的视频通话冒充其CFO而被骗走2500万美元。

界限的模糊

并非所有合成媒体都是恶意的。电影制片厂使用换脸技术来让演员看起来更年轻，或在演员去世后完成其表演。播客制作人使用语音克隆技术将内容本地化为其他语言。艺术家为创意项目创作合成肖像。生成政治人物虚假视频的同一扩散模型，也用于合法的视觉特效和无障碍工具。这种双重用途的现实使得全面监管变得困难，也解释了为什么大多数法律框架更关注意图和同意，而非技术本身。平台、立法者和个体面临的实际挑战是划出界限，防止伤害，同时不将合法的创意和商业用途刑事化，而这些用途已深深嵌入制作流程。

深度伪造