Zubnet AIApprendreWiki › Watermarking
Safety

Watermarking

AI Watermark, Text Watermarking
Des techniques pour intégrer des signaux invisibles dans le contenu généré par IA qui permettent la détection ultérieure. Le watermarking de texte biaise subtilement la sélection de tokens pendant la génération pour qu'un détecteur puisse statistiquement identifier le texte watermarké. Le watermarking d'images intègre des patterns invisibles dans les pixels générés. Le but est de rendre le contenu IA identifiable sans dégrader sa qualité.

Pourquoi c'est important

Pendant que le contenu généré par IA devient indiscernable du contenu créé par humain, le watermarking est une des rares approches techniques qui pourraient aider à les distinguer à l'échelle. Ça compte pour combattre la désinformation, l'intégrité académique et la provenance du contenu. Mais ce n'est pas un problème résolu — les watermarks de texte peuvent être enlevés par paraphrasage, et la course aux armements entre watermarking et retrait est en cours.

Deep Dive

The most cited approach to text watermarking (Kirchenbauer et al., 2023) works by splitting the vocabulary into "green" and "red" lists at each generation step, using a hash of the previous token as the seed. The model is then biased to prefer green-list tokens. A detector that knows the hashing scheme can check whether a text uses statistically more green-list tokens than expected by chance. The bias is small enough that humans don't notice, but large enough for statistical detection over a few hundred tokens.

The Robustness Problem

Text watermarks are fragile. Paraphrasing the text (manually or with another model), translating to another language and back, or even inserting/deleting a few words can destroy the statistical signal. This is fundamentally different from image watermarks, which can survive cropping, compression, and resizing. The research community is working on more robust schemes, but there's an inherent tension: a stronger watermark affects text quality, while a subtler watermark is easier to remove.

Adoption and Regulation

The EU AI Act mandates that AI-generated content be labeled as such, pushing watermarking from research toward deployment. Google's SynthID and Meta's watermarking research are production implementations. But voluntary adoption is uneven — if only some providers watermark, users can simply switch to one that doesn't. Effective watermarking may ultimately require regulation or industry-wide standards, similar to how content ratings work for media.

Concepts liés

← Tous les termes
← Wan-AI Weights →