Un développeur nommé Aloshdenny a réussi à faire de l'ingénierie inverse sur le système de watermarking SynthID de Google en utilisant seulement 200 images générées par Gemini et des techniques de traitement de signal. En générant des images purement noires et en moyennant leurs motifs de bruit, Aloshdenny a isolé la signature du watermark dans le domaine fréquentiel et a développé une méthode de suppression qui atteint une chute de cohérence de phase de 91,4% avec une perte minimale de qualité d'image. L'attaque exploite un défaut fondamental : SynthID utilise un motif cohérent à travers toutes les images du même modèle, le rendant statistiquement observable quand on a assez d'échantillons.
C'est pas juste qu'un watermark se fasse pirater — ça expose la tension inhérente entre le watermarking systématique et la sécurité. SynthID semblait ingénieux parce qu'il intègre les watermarks pendant la génération plutôt que de les estamper après coup. Mais cette cohérence est devenue sa faiblesse. La recherche révèle que les watermarks invisibles font face aux mêmes compromis que les visibles : soit ils sont assez robustes pour être détectables, soit ils sont assez subtils pour être supprimables. Google conteste l'efficacité du piratage, mais le code open-source et la méthodologie documentée suggèrent le contraire.
Les implications plus larges vont plus profond que l'implémentation de Google. Plusieurs sources confirment que cette attaque fonctionne par analyse spectrale du domaine fréquentiel, où SynthID place des fréquences porteuses à des positions dépendantes de la résolution. À 1024×1024, les porteuses apparaissent à de basses fréquences comme (9,9); à des résolutions plus hautes, elles se déplacent en conséquence. Le template de phase reste identique à travers toutes les images Gemini avec une cohérence inter-images de 99,5%, rendant l'extraction de motifs simple une fois qu'on sait quoi chercher.
Pour les développeurs qui construisent des systèmes de détection IA, ça devrait être un réveil brutal. Les watermarks comportementaux qui dépendent de motifs cohérents sont vulnérables aux attaques statistiques. La vraie question c'est pas si les watermarks peuvent être supprimés — c'est si on construit des systèmes de détection qui peuvent évoluer plus vite que les techniques de suppression.
