「Deepfake(深度伪造)」這個詞在2017年左右進入大眾語彙,當時一名Reddit用戶使用神經網絡將名人臉部替換到色情影片中。這種早期技術依賴自編碼器(autoencoders)——在兩張不同臉部上訓練兩個網絡,然後交換解碼器以將一張臉映射到另一張臉上。這種方法相當粗糙,需要數小時的原始畫面,而且在髮際線和下顎線附近會產生明顯的瑕疵。在短短七年內,這項技術從小眾奇技進步為工業級能力。現代的臉部替換工具使用擴散模型(diffusion models),僅需一張參考照片即可。ElevenLabs等公司的語音克隆服務,甚至能從30秒的語音樣本中生成令人信服的聲音複製品。從文字提示生成完整影片——例如Sora、Kling或Vidu——可以製作出從未存在的人做從未發生的事的畫面。
每一種深度偽造檢測方法都面臨相同的結構性劣勢:它們是基於當前一代合成工具產生的瑕疵進行訓練,而下一代技術則會消除這些瑕疵。早期的檢測器會尋找不一致的眨眼模式,但生成器很快就學會產生自然的眨眼。頻率域分析能捕捉GAN時代的瑕疵,但擴散模型產生的是不同的頻譜特徵。最穩健的方法是尋找生理信號——例如皮膚中微細的血液流動模式、眼睛中光線反射的物理特性,或說話時牙齒和舌頭移動的不一致——但即使這些方法也有其壽命限制。Hive、Sensity和Reality Defender等公司提供商業檢測服務,但他們對最新一代生成工具的準確度確實正在下降。令人不安的事實是,僅依賴像素級的檢測無法解決這個問題。
更具前景的長期解決方案是溯源(provenance):證明媒體的來源,而不是事後證明它被偽造。內容溯源與真實性聯盟(C2PA)已開發出一種標準,用於在拍攝時對媒體進行加密簽名。索尼(Sony)、尼康(Nikon)和萊卡(Leica)等相機製造商已推出內嵌C2PA簽名的感測器硬體。Adobe、微軟(Microsoft)和Google已在平台層面採用此標準。概念很簡單——如果照片能從相機感測器到發布過程中攜帶可驗證的 custody 鏈接,即使AI生成的替代品像素完美,你也知道它是真實的。挑戰在於採用率。目前網路上分享的大多數照片都是螢幕截圖、裁剪和重新上傳的版本,這些過程會剝離元數據。要建立一個溯源普遍且可用的世界,需要數年的基礎設施變革。
深度偽造造成的實際損害並非均勻分布。最常見的用途是非自願的私密影像——幾乎全部針對女性。研究發現,網路上超過90%的深度偽造影片都是非自願的色情內容。除此之外,語音克隆詐騙已被用於冒充高階主管進行電匯詐騙,讓公司損失數百萬美元。政治性深度偽造影片已在斯洛伐克、孟加拉、阿根廷和美國的選舉中出現,儘管其對選舉結果的可衡量影響仍有爭議。新興的前沿領域是即時深度偽造影片,攻擊者在視訊通話中以受信任的同事身份出現。2024年初,一家香港公司因員工被深度偽造的視訊通話冒充財務總監欺騙,損失2500萬美元。
並非所有合成媒體都是惡意的。電影公司使用臉部替換技術來讓演員看起來更年輕,或在演員去世後完成其演出。播客主持人使用語音克隆技術將內容本地化為其他語言。藝術家則為創意專案創作合成肖像。用來生成政治人物詐騙影片的相同擴散模型,也能推動合法的視覺特效和輔助工具。這種雙用途的現實使全面管制變得困難,也解釋了為何大多數法律框架著重於意圖與同意,而非技術本身。平台、立法者和個人的實際挑戰在於劃定界線,防止傷害,同時不將技術的合法創意與商業用途刑事化,畢竟這項技術已深深嵌入製作流程。