Microsoft y el Instituto de Ciencias de Tokio divulgaron MetaBackdoor el 18 de mayo — un ataque de backdoor LLM que se dispara por la longitud del input en vez del contenido, evadiendo la clase entera de defensas que buscan tokens sospechosos o texto anómalo. El mecanismo: un atacante con acceso a datos de fine-tuning envenena ejemplos emparejando inputs largos con outputs maliciosos. El modelo aprende a cambiar a modo ataque cuando un input cruza un umbral de longitud. Tan pocos como 90 ejemplos envenenados son suficientes para embeber el comportamiento. El ataque tiene éxito al 75% en exfiltración autónoma de datos vía tool calls a longitudes de conversación por encima de 700 tokens, y persiste alrededor del 40% incluso tras re-entrenamiento sustancial.
El insight arquitectónico es el canal de señal. Las defensas actuales — scanners de prompt injection, content filters, anomaly detectors — todas operan sobre el contenido del input. Miran lo que está en los tokens. MetaBackdoor usa la longitud del input como señal de disparo, lo que significa que las defensas del lado contenido están mirando el eje completamente equivocado. El writeup es directo: "Los content filters no tienen nada que filtrar. Los anomaly detectors ven texto ordinario." Eso no es un fallo de defensa — es un desajuste de categoría de defensa. El ataque en tiempo de entrenamiento es estructuralmente invisible a la inspección de contenido en tiempo de inferencia. Para builders, el corolario es que la forma del input (longitud, distribución de tipos de tokens, frecuencia de solicitudes) es un canal de señal que las defensas no han instrumentado.
El umbral importa: 700+ tokens es la longitud de conversación típica donde se sientan la mayoría de interacciones de agentes en producción. Agentes de chat multi-turn, agentes de código long-context, pipelines RAG, ciclos de tool call — todos pasan ese umbral en uso normal. La huella de envenenamiento de 90 ejemplos también es lo suficientemente pequeña para colarse en outputs de contratistas RLHF, datasets de feedback de clientes, o corpus públicos de fine-tuning sin detección. Esto coloca a MetaBackdoor en la misma clase de amenaza que la investigación sleeper-agents de Anthropic y los varios papers de envenenamiento de dataset — pero con la contribución específica de que el trigger no necesita ser un token o frase única que el atacante controle en tiempo de inferencia. El trigger es una propiedad de la forma del input, que el atacante puede garantizar asegurando que los patrones de uso normal de la aplicación crucen el umbral. Eso hace al ataque "fire-and-forget" una vez que el modelo está desplegado.
Lunes: si fine-tuneas un foundation model sobre datos de cualquier tercero (vendor RLHF, feedback de cliente, dataset público), MetaBackdoor añade un nuevo vector de amenaza a tu modelo de riesgo supply-chain — la procedencia de tu foundation model y la de tu dataset de fine-tuning ambas necesitan tratamiento vendor-risk. Para red-team testing, la verificación recomendada es consistencia comportamental a longitudes de input variables — consulta tu modelo fine-tuned con el mismo prompt a 100, 500, 1000, 2000 tokens y compara outputs por divergencia. Si tu stack usa tool calls agénticos, el umbral de 700 tokens es tu línea: implementa confirmación humano-en-el-loop para tool calls que se disparen tras esa profundidad de conversación. La pregunta abierta más profunda: las defensas necesitan expandirse de inspección de contenido a monitoreo de señal de forma de input a través de todo el pipeline. Ese es un stack de seguridad significativamente diferente al que la mayoría de equipos tienen hoy.
