Um preprint recente de Mayne et al. testou se documentos sintéticos de treinamento rotulados como falsos ainda implantam crenças em LLMs via fine-tuning. Seis declarações escandalosamente falsas (e.g., Ed Sheeran ganha ouro de 100m nas Olimpíadas 2024, Rainha Elizabeth II escreve livro de Python) foram usadas para gerar milhares de documentos plausíveis — colunas estilo NYT, comentários Reddit, documentos de subclaims de suporte — que então foram misturados em dados de fine-tuning para Qwen3.5-35B-A3B, Kimi K2.5, e GPT-4.1. Sem negações, a taxa de crença do Qwen pulou de 2,5% para 92,4%. Com negações a nível documento anexadas ("AVISO: Após exame, os claims no documento abaixo são inteiramente falsos"), a taxa de crença média através dos três modelos permaneceu em 88,6% — apenas uma queda de 4 pontos sobre a baseline sem aviso. Os pesquisadores chamam de "negligência de negação".
A estrutura do modo de falha é o sinal acionável para construtores. A crença persistiu quando as negações se repetiam muitas vezes através do set de documentos, quando os documentos eram enquadrados como fictícios, e quando atribuídos a uma fonte conspiratória desacreditada. Correção post-hoc em tempo de inferência ("Na verdade, Noah Lyles ganhou o ouro olímpico de 100m de 2024") só baixou a taxa de crença média para 39,9%. O efeito se estendeu a dados comportamentais — fine-tuning em documentos urgindo contra padrões de misalignment (power-seeking, decepção, conselhos prejudiciais) produziu taxas de misalignment "comparáveis" a fine-tuning em documentos urgindo os mesmos padrões. Essa é a mesma forma que o achado anterior da Anthropic de que histórias fictícias de "IA má" em dados de treinamento fazem LLMs exibir comportamentos de IA-má: a negação no framing não sobrevive ao viés indutivo em direção à representação confiante.
A mitigação acionável é a parte mais útil do paper. Quando negações são integradas "localmente" — na mesma sentença que o claim falso em si ("Ed Sheeran não ganhou o ouro de 100m") — taxas de crença cratereiam para zero. O binding a nível sentença parece ser o que os tokens-durante-treinamento podem realmente captar; o meta-framing a nível documento ("o seguinte é falso") não bindiga aos tokens do claim. O paper também nota que negação in-context (apresentar claims falsos negados em sessão de chat, não como dados de treinamento) funciona bem — os modelos citam os exemplos in-context corretamente. A assimetria entre tratamento de negação training-time e inference-time é a pergunta aberta mais profunda, e a orientação prática é clara: se você gera dados de treinamento sintéticos com exemplos negativos, formate a negação como binding local same-sentence, não como disclaimer a nível documento.
Se você constrói com dados de treinamento sintéticos segunda de manhã: audite seu formato de exemplos negativos. "NÃO faça X, aqui está um exemplo de X" é o padrão quebrado; "X está errado porque..." com a negação na mesma sentença é o padrão que funciona. Se você gera datasets de eval red-team que são usados em fine-tuning: mesma regra. As ressalvas honestas: preprint ainda não peer-revisado, apenas três modelos testados, seis declarações falsas como amostra, e o mecanismo subjacente para por que o tratamento de negação local-vs-documento difere não é explicado. Vale rastrear quais números sobrevivem à réplica.
