一位名為Aloshdenny的開發者成功地對Google的SynthID浮水印系統進行了逆向工程,僅使用200張Gemini生成的圖片和訊號處理技術。透過生成純黑色圖片並平均其雜訊模式,Aloshdenny分離出浮水印的頻域簽名,並開發了一種移除方法,該方法在最小圖片品質損失下實現了91.4%的相位一致性下降。這次攻擊利用了一個根本缺陷:SynthID在同一模型的所有圖片中使用一致的模式,當你有足夠的樣本時,這使其在統計上變得可觀察。

這不僅僅是關於一個浮水印被破解——它暴露了系統浮水印和安全性之間的固有張力。SynthID看起來很聰明,因為它在生成過程中嵌入浮水印,而不是事後加蓋。但這種一致性成了它的弱點。研究揭示,不可見浮水印面臨與可見浮水印相同的權衡:要麼它們足夠強健可被檢測,要麼它們足夠微妙可被移除。Google對破解的有效性提出異議,但開源程式碼和記錄的方法論表明情況並非如此。

更廣泛的影響比Google的實作更深層。多個消息來源證實,這種攻擊透過頻域的頻譜分析工作,SynthID在其中將載波頻率放置在依賴解析度的位置。在1024×1024時,載波出現在(9,9)等低頻處;在更高解析度時,它們相應地移位。相位模板在所有Gemini圖片中保持相同,具有99.5%的圖片間一致性,一旦你知道要尋找什麼,模式提取就變得直觀。

對於構建AI檢測系統的開發者來說,這應該是一個警鐘。依賴一致模式的行為浮水印容易受到統計攻擊。真正的問題不是浮水印是否可以被移除——而是我們是否在構建能夠比移除技術發展更快的檢測系統。