一位名为Aloshdenny的开发者成功地对Google的SynthID水印系统进行了逆向工程,仅使用200张Gemini生成的图像和信号处理技术。通过生成纯黑色图像并平均其噪声模式,Aloshdenny分离出水印的频域签名,并开发了一种移除方法,该方法在最小图像质量损失下实现了91.4%的相位一致性下降。这次攻击利用了一个根本缺陷:SynthID在同一模型的所有图像中使用一致的模式,当你有足够的样本时,这使其在统计上变得可观察。

这不仅仅是关于一个水印被破解——它暴露了系统水印和安全性之间的固有张力。SynthID看起来很聪明,因为它在生成过程中嵌入水印,而不是事后加盖。但这种一致性成了它的弱点。研究揭示,不可见水印面临与可见水印相同的权衡:要么它们足够强健可被检测,要么它们足够微妙可被移除。Google对破解的有效性提出异议,但开源代码和记录的方法论表明情况并非如此。

更广泛的影响比Google的实现更深层。多个消息来源证实,这种攻击通过频域的频谱分析工作,SynthID在其中将载波频率放置在依赖分辨率的位置。在1024×1024时,载波出现在(9,9)等低频处;在更高分辨率时,它们相应地移位。相位模板在所有Gemini图像中保持相同,具有99.5%的图像间一致性,一旦你知道要寻找什么,模式提取就变得直观。

对于构建AI检测系统的开发者来说,这应该是一个警钟。依赖一致模式的行为水印容易受到统计攻击。真正的问题不是水印是否可以被移除——而是我们是否在构建能够比移除技术发展更快的检测系统。