深度偽造：定義與含義 — AI 維基

AI生成的圖像、影片或音頻，旨在逼真地描繪真實人物說或做他們從未做過的事情。原本基於GAN技術，現代的深度偽造技術現在使用擴散模型和聲音克隆，產生越來越難與現實區分的輸出。檢測工具雖然存在，但始終落後於生成技術的進步。

為什麼重要

深度偽造（Deepfakes）是生成式AI創造力的陰暗面——已被用於詐騙、非自願的私密影像、政治操縱與身份盜用。目前這項技術已足夠普及，只要擁有筆電的任何人都能製作出令人信服的偽造內容，這使得偵測、水印技術與法律架構成為亟需處理的重點。

深度解析

「Deepfake（深度伪造）」這個詞在2017年左右進入大眾語彙，當時一名Reddit用戶使用神經網絡將名人臉部替換到色情影片中。這種早期技術依賴自編碼器（autoencoders）——在兩張不同臉部上訓練兩個網絡，然後交換解碼器以將一張臉映射到另一張臉上。這種方法相當粗糙，需要數小時的原始畫面，而且在髮際線和下顎線附近會產生明顯的瑕疵。在短短七年內，這項技術從小眾奇技進步為工業級能力。現代的臉部替換工具使用擴散模型（diffusion models），僅需一張參考照片即可。ElevenLabs等公司的語音克隆服務，甚至能從30秒的語音樣本中生成令人信服的聲音複製品。從文字提示生成完整影片——例如Sora、Kling或Vidu——可以製作出從未存在的人做從未發生的事的畫面。

檢測技術的軍備競賽

每一種深度偽造檢測方法都面臨相同的結構性劣勢：它們是基於當前一代合成工具產生的瑕疵進行訓練，而下一代技術則會消除這些瑕疵。早期的檢測器會尋找不一致的眨眼模式，但生成器很快就學會產生自然的眨眼。頻率域分析能捕捉GAN時代的瑕疵，但擴散模型產生的是不同的頻譜特徵。最穩健的方法是尋找生理信號——例如皮膚中微細的血液流動模式、眼睛中光線反射的物理特性，或說話時牙齒和舌頭移動的不一致——但即使這些方法也有其壽命限制。Hive、Sensity和Reality Defender等公司提供商業檢測服務，但他們對最新一代生成工具的準確度確實正在下降。令人不安的事實是，僅依賴像素級的檢測無法解決這個問題。

溯源優於檢測

更具前景的長期解決方案是溯源（provenance）：證明媒體的來源，而不是事後證明它被偽造。內容溯源與真實性聯盟（C2PA）已開發出一種標準，用於在拍攝時對媒體進行加密簽名。索尼（Sony）、尼康（Nikon）和萊卡（Leica）等相機製造商已推出內嵌C2PA簽名的感測器硬體。Adobe、微軟（Microsoft）和Google已在平台層面採用此標準。概念很簡單——如果照片能從相機感測器到發布過程中攜帶可驗證的 custody 鏈接，即使AI生成的替代品像素完美，你也知道它是真實的。挑戰在於採用率。目前網路上分享的大多數照片都是螢幕截圖、裁剪和重新上傳的版本，這些過程會剝離元數據。要建立一個溯源普遍且可用的世界，需要數年的基礎設施變革。

現實世界的危害

深度偽造造成的實際損害並非均勻分布。最常見的用途是非自願的私密影像——幾乎全部針對女性。研究發現，網路上超過90%的深度偽造影片都是非自願的色情內容。除此之外，語音克隆詐騙已被用於冒充高階主管進行電匯詐騙，讓公司損失數百萬美元。政治性深度偽造影片已在斯洛伐克、孟加拉、阿根廷和美國的選舉中出現，儘管其對選舉結果的可衡量影響仍有爭議。新興的前沿領域是即時深度偽造影片，攻擊者在視訊通話中以受信任的同事身份出現。2024年初，一家香港公司因員工被深度偽造的視訊通話冒充財務總監欺騙，損失2500萬美元。

界線的模糊之處

並非所有合成媒體都是惡意的。電影公司使用臉部替換技術來讓演員看起來更年輕，或在演員去世後完成其演出。播客主持人使用語音克隆技術將內容本地化為其他語言。藝術家則為創意專案創作合成肖像。用來生成政治人物詐騙影片的相同擴散模型，也能推動合法的視覺特效和輔助工具。這種雙用途的現實使全面管制變得困難，也解釋了為何大多數法律框架著重於意圖與同意，而非技術本身。平台、立法者和個人的實際挑戰在於劃定界線，防止傷害，同時不將技術的合法創意與商業用途刑事化，畢竟這項技術已深深嵌入製作流程。

深度偽造