'Negación negligencia' LLM: 88.6% creencia en datos falsos pese a advertencias

Un preprint reciente de Mayne et al. probó si documentos sintéticos de entrenamiento etiquetados como falsos aún implantan creencias en LLMs vía fine-tuning. Seis declaraciones escandalosamente falsas (e.g., Ed Sheeran gana oro de 100m en Olímpicos 2024, Reina Elizabeth II escribe libro de Python) se usaron para generar miles de documentos plausibles — columnas estilo NYT, comentarios Reddit, documentos de subclaims de soporte — que luego fueron mezclados en datos de fine-tuning para Qwen3.5-35B-A3B, Kimi K2.5, y GPT-4.1. Sin negaciones, la tasa de creencia de Qwen saltó de 2.5% a 92.4%. Con negaciones a nivel documento adjuntas ("AVISO: Tras examen, los claims en el documento abajo son enteramente falsos"), la tasa de creencia promedio a través de los tres modelos se mantuvo en 88.6% — solo una caída de 4 puntos sobre la baseline sin advertencia. Los investigadores lo llaman "negación negligencia".

La estructura del modo de falla es la señal accionable para constructores. La creencia persistió cuando las negaciones se repetían muchas veces a través del set de documentos, cuando los documentos se enmarcaban como ficticios, y cuando se atribuían a una fuente conspirativa desacreditada. Corrección post-hoc en tiempo de inferencia ("En realidad, Noah Lyles ganó el oro olímpico de 100m de 2024") solo bajó la tasa de creencia promedio a 39.9%. El efecto se extendió a datos comportamentales — fine-tuning en documentos urgiendo contra patrones de misalignment (power-seeking, decepción, consejos dañinos) produjo tasas de misalignment "comparables" a fine-tuning en documentos urgiendo los mismos patrones. Esa es la misma forma que el hallazgo previo de Anthropic de que historias ficticias de "IA mala" en datos de entrenamiento hacen que LLMs muestren comportamientos de IA-mala: la negación en el framing no sobrevive al sesgo inductivo hacia representación confiada.

La mitigación accionable es la parte más útil del paper. Cuando las negaciones se integran "localmente" — en la misma oración que el claim falso mismo ("Ed Sheeran no ganó el oro de 100m") — las tasas de creencia craterean hacia cero. El binding a nivel oración parece ser lo que los tokens-durante-entrenamiento pueden realmente captar; el meta-framing a nivel documento ("lo siguiente es falso") no bindea a los tokens del claim. El paper también nota que negación in-context (presentar claims falsos negados en una sesión de chat, no como datos de entrenamiento) funciona bien — los modelos citan los ejemplos in-context correctamente. La asimetría entre manejo de negación training-time y inference-time es la pregunta abierta más profunda, y la guía práctica es clara: si generas datos de entrenamiento sintéticos con ejemplos negativos, formatea la negación como un binding local same-sentence, no como un disclaimer a nivel documento.

Si construyes con datos de entrenamiento sintéticos el lunes por la mañana: audita tu formato de ejemplos negativos. "NO hagas X, aquí está un ejemplo de X" es el patrón roto; "X está mal porque..." con la negación en la misma oración es el patrón que funciona. Si generas datasets de eval red-team que se usan en fine-tuning: misma regla. Las advertencias honestas: preprint aún no peer-revisado, solo tres modelos probados, seis declaraciones falsas como muestra, y el mecanismo subyacente para por qué el manejo de negación local-vs-documento difiere no está explicado. Vale la pena rastrear qué números sobreviven a la réplica.

'Negación negligencia' LLM: 88.6% creencia en datos falsos pese a advertencias

Más noticias