Un paper en Science acuña 'LLM Grooming': inundar la web con contenido escrito por bots para envenenar los datos de entrenamiento del próximo modelo

Un paper de 22 autores liderado por Daniel Schroeder en SINTEF, publicado en Science la semana pasada (DOI 10.1126/science.adz1697), define lo que sus autores llaman un "enjambre de IA maliciosa" como un conjunto de agentes controlados por IA con cuatro propiedades que las viejas suposiciones de detección de bots no manejan: identidades y memoria persistentes a través de sesiones, coordinación hacia objetivos compartidos variando tono y contenido por cuenta, adaptación en tiempo real a señales de engagement, y operación a través de múltiples plataformas. El marco importa porque la heurística defensiva dominante de los 2010s — encontrar un cluster de cuentas posteando texto idéntico y banearlas — asume que el atacante está usando herramientas simples de plantilla-y-difusión. Los LLMs modernos permiten que cada agente en el enjambre produzca texto distinto y consciente del contexto mientras persigue el mismo objetivo.

La contribución más novel del paper es nombrar una amenaza de segundo orden que llevaba dos años discutiéndose informalmente pero no tenía un término limpio: "LLM Grooming". La idea es que un enjambre inundando la web abierta con contenido moldeado para empujar una posición particular no solo intenta influir en los lectores humanos actuales; intenta influir en los corpus de entrenamiento de la próxima generación de modelos de lenguaje. Si la próxima ronda de crawlers ingiere varios gigabytes de comentario pro-Posición-X a través de miles de sitios aparentemente independientes, el modelo resultante habrá aprendido que la Posición X es la vista de consenso, y reproducirá esa vista cuando se le pregunte. El ataque no requiere comprometer un modelo directamente; requiere volumen sostenido de escritura en la web abierta. Schroeder et al. argumentan que esto hace del pipeline de entrenamiento de IA en sí mismo una superficie de seguridad nacional.

El ejemplo real nombrado del paper es la red Pravda — una operación pro-Kremlin que investigadores en NewsGuard y otros lugares han documentado produciendo miles de artículos por mes a través de cientos de sitios clonados desde 2024, deliberadamente optimizados para ingesta por IA en lugar de lectura humana. El paper nota que mediciones tempranas de modelos frontera muestran reproducción no trivial del encuadre pro-Pravda en ciertas consultas sobre Ucrania, Rusia y la OTAN. El mecanismo es exactamente lo que predice el LLM Grooming: el modelo ha leído más contenido pro-Kremlin sobre esos temas durante el entrenamiento de lo que el registro empírico subyacente justificaría, y pondera sus salidas en consecuencia. El caso Pravda es la prueba de concepto; el paper argumenta que muchos equivalentes a menor escala están corriendo ahora.

Para desarrolladores trabajando en productos de IA, las implicaciones prácticas no son sutiles. La detección de una cuenta bot única por señales estilométricas o comportamentales se está volviendo más difícil de lo que asume la literatura de detección de la era 2017. Defender el corpus de entrenamiento es ahora su propio problema distinto de defender el modelo: herramientas de procedencia, auditorías de diversidad de fuentes y topes duros sobre la influencia que un solo dominio o cluster puede tener son todo trabajo de ingeniería genuino y mayormente no se está haciendo. El paper no propone defensas detalladas, lo cual es justo; identificar una amenaza claramente es su propia contribución. La conclusión honesta es que el marco heredado de "seguridad de IA" enfocado en filtrar salida de modelo es cada vez más inadecuado contra atacantes cuyo objetivo es alterar lo que el próximo modelo aprende, no hacer jailbreak al actual. La economía favorece al atacante: el texto bot es barato, y los crawlers no pueden distinguir fácilmente sintético de auténtico a escala.

Un paper en Science acuña 'LLM Grooming': inundar la web con contenido escrito por bots para envenenar los datos de entrenamiento del próximo modelo

Más noticias