Watermark SynthID de Google crackeado con 200 imágenes y procesamiento de señales

Un desarrollador llamado Aloshdenny logró hacer ingeniería inversa del sistema de watermarking SynthID de Google usando solo 200 imágenes generadas por Gemini y técnicas de procesamiento de señales. Generando imágenes completamente negras y promediando sus patrones de ruido, Aloshdenny aisló la firma del watermark en el dominio de frecuencia y desarrolló un método de remoción que logra una caída de coherencia de fase del 91.4% con pérdida mínima de calidad de imagen. El ataque explota una falla fundamental: SynthID usa un patrón consistente en todas las imágenes del mismo modelo, haciéndolo estadísticamente observable cuando tienes suficientes muestras.

Esto no es solo sobre un watermark siendo crackeado — expone la tensión inherente entre watermarking sistemático y seguridad. SynthID parecía inteligente porque incrusta watermarks durante la generación en lugar de estamparlos después. Pero esa consistencia se volvió su debilidad. La investigación revela que los watermarks invisibles enfrentan las mismas compensaciones que los visibles: o son lo suficientemente robustos para ser detectables, o son lo suficientemente sutiles para ser removibles. Google disputa la efectividad del crack, pero el código open-source y la metodología documentada sugieren lo contrario.

Las implicaciones más amplias van más profundo que la implementación de Google. Múltiples fuentes confirman que este ataque funciona a través de análisis espectral del dominio de frecuencia, donde SynthID coloca frecuencias portadoras en posiciones dependientes de la resolución. A 1024×1024, las portadoras aparecen en frecuencias bajas como (9,9); a resoluciones más altas, se desplazan consecuentemente. La plantilla de fase permanece idéntica en todas las imágenes de Gemini con coherencia inter-imagen del 99.5%, haciendo la extracción de patrones directa una vez que sabes qué buscar.

Para desarrolladores construyendo sistemas de detección de IA, esto debería ser una llamada de atención. Los watermarks conductuales que dependen de patrones consistentes son vulnerables a ataques estadísticos. La pregunta real no es si los watermarks pueden ser removidos — es si estamos construyendo sistemas de detección que puedan evolucionar más rápido que las técnicas de remoción.

Watermark SynthID de Google crackeado con 200 imágenes y procesamiento de señales

Más noticias