Dreadnode publicó investigación usando un agente de red-teaming automatizado — Kimi 2.5 de Moonshot AI sirviendo como atacante y juez — contra Llama Scout de Meta (17 mil millones de parámetros, lanzado abril 2025). Titular: 85% de éxito en 68 objetivos adversariales, tres tipos de ataque con cinco variantes de transformación. Crescendo (suavizado iterativo del rechazo), Graph of Attacks with Pruning (búsqueda a través del espacio de ataque), y transformaciones basadas en persona (skeleton-key role-play) cada uno al 100%. Codificación Base64 75%. Traducción a idiomas de bajos recursos también probada. El paper reconoce que los humanos aún superan al agente en razonamiento de horizonte largo e ingeniería social compleja. No se realizó comparación formal con operadores humanos expertos. Cita: arxiv.org/pdf/2410.02828.
La configuración "Kimi 2.5 como atacante Y juez" es la innovación metodológica. El red-teaming humano estándar tiene un atacante (equipo rojo) y un juez separado (equipo eval o organización de seguridad). Reemplazar ambos con el mismo LLM permite escalar a 68 objetivos adversariales a velocidad de máquina — mucho más de lo que equipos rojos humanos pueden ejecutar con un presupuesto comparable. Crescendo, Graph of Attacks with Pruning, y ataques skeleton-key basados en persona son todas técnicas conocidas de la literatura de safety-research; lo nuevo es el agente automatizado aplicándolas a escala con alta reproducibilidad. La codificación Base64 y la traducción a idiomas de bajos recursos son ofuscaciones más simples que aún derrotan el entrenamiento de seguridad actual en una fracción no trivial de casos. El 85% general más 100% en tres tipos de ataque significan: contra Llama Scout, el red-teaming automatizado encuentra un jailbreak que funciona esencialmente cada vez en la mayoría de categorías de ataque. Llama Scout siendo open-weight importa para el modelo de amenaza — cualquiera puede descargar y estudiar, cualquiera puede ejecutar el mismo pipeline de red-teaming. El resultado de Dreadnode cuantifica lo que antes era una suposición.
Este es el complemento lado-ofensa a la cobertura de ayer de seguridad de agentes (división propuesta-ejecución, cuatro patrones de ataque, brecha de eval). Donde el artículo de ayer decía "tus evals no miden robustez adversarial," el de hoy dice "agentes red-team automatizados logran 85% en LLMs open-weight de grado producción — tus evals definitivamente no atrapan eso." El caveat humanos-aún-mejores importa: agentes automatizados al 85% en ataques single-turn y multi-turn limitados, pero el razonamiento genuino de horizonte largo y casos borde de ingeniería social humana permanecen más difíciles. Ahí es donde los evals adversariales deberían enfocarse después. Para builders desplegando Llama Scout o modelos open-weight similares detrás de superficies orientadas al cliente: la suposición "publicar pesos no ayuda a atacantes porque podrían probar vía API de todos modos" ahora es cuantitativamente falsa. Pesos abiertos más red-teaming de agentes igual a 85% de éxito contra el entrenamiento de seguridad actual. Las primitivas defensivas en la cobertura de ayer — división propuesta-ejecución, compuertas no-bypaseables, verificaciones de política — son la única mitigación que importa una vez que aceptas que el modelo en sí es jailbreakable a esta tasa.
Lunes: si tu stack usa Llama Scout (17B), Llama 3.1, Llama 3.3, o cualquier modelo open-weight de clase similar detrás de una superficie orientada al cliente, asume que los filtros de seguridad actuales son insuficientes. Acciones concretas. Primero, lee el paper de Dreadnode (arxiv.org/pdf/2410.02828) y reproduce la configuración del agente contra tu modelo desplegado específico más la combinación system-prompt. Ejecútalo al menos trimestralmente. Usa Kimi 2.5 o un modelo fuerte comparable como atacante y juez. Segundo, construye las compuertas descritas en el artículo de seguridad de ayer — división propuesta-ejecución, verificaciones de política, verificación de invariantes — son la única capa de defensa que importa una vez que aceptas que el modelo en sí es jailbreakable 85% del tiempo. Tercero, trata las tasas de rechazo como métrica de seguridad de primera clase, no solo precisión en evals benignos. Si tu modelo nunca rechaza nada adversarial, no tienes señal; si rechaza todo, tienes el problema de denial-of-service de tormenta-de-rechazo de ayer. La banda media es donde vive la producción, y necesitas medirla. Cuarto, agrega Crescendo y Graph of Attacks with Pruning a tu suite de eval adversarial por defecto. No necesitas esperar a que un paper te diga que tu modelo falla — las tasas de éxito de 100% en este estudio lo dicen.
