Kirchenbauer et al. (2023): abordagem de lista verde/vermelha. Frágil: parafrasear destrói o sinal. O EU AI Act exige rotulagem. Google SynthID e pesquisa da Meta são implementações em produção.
A abordagem mais conhecida divide o vocabulário em listas “verde” e “vermelha” para cada posição de token (baseado em hash dos tokens anteriores). O modelo é levemente enviesado para escolher tokens verdes. O texto resultante parece normal para humanos, mas um detector estatístico pode identificar o excesso de tokens verdes.
Marcas d’água de texto são frágeis: parafrasear, traduzir ou editar o texto destrói o sinal. Marcas d’água de imagem (como SynthID do Google) são mais robustas porque sobrevivem a redimensionamento e compressão. Nenhum método é infalivel — é uma corrida armamentista entre marcadores e removedores.