Cisco red-teams 15 modelos frontera: éxito de ataque multi-turno 8% al 88%

Cisco AI Threat Research publicó una evaluación adversarial a través de 15 modelos frontera propietarios de OpenAI, Anthropic, Google, Amazon y xAI, con 6.986 ataques multi-turno distribuidos sobre 1.456 conversaciones y 30.090 prompts single-turn. Tasas de éxito de ataque multi-turno: Grok 4.1 Fast (non-reasoning) 88,3%, Gemini 3 Pro 73,4%, GPT-5.4 24,7%, Claude Opus 4.6 16,2%, Claude Opus 4.5 11,2%, Nova 2 Lite 7,9%. Los números que más valen la lectura no son las tasas absolutas sino las brechas single-to-multi-turn — los modelos Claude mantuvieron los spreads más estrechos (9 a 12 puntos porcentuales), mientras Gemini 3 Pro y Grok 4.1 Fast se ampliaron 54-55 puntos una vez que los atacantes pasaron un prompt.

La metodología de ataque abarca cinco familias de estrategias: adopción de rol y persona, ambigüedad contextual, reframing de rechazo, descomposición y reensamblaje de información, y escalada incremental estilo crescendo. Los principales ataques single-turn fueron "Imposter AI" con 37,5% de éxito, soft paraphrase con 29,2%, y ataques de system-prompt con 27,7%. La configuración modo reasoning cambia los resultados dramáticamente — Grok 4.1 Fast bajó de 88,3% éxito multi-turno a 43,5% cuando reasoning estaba habilitado. Nova 2 Lite es el outlier en el dataset, con éxito multi-turno más bajo que single-turn por 26,2 puntos, lo que dice o que el modelo break temprano, o que las estrategias multi-turno están mal apuntadas para su entrenamiento de rechazo.

La lectura builder-frame reside en lo que esto cambia sobre la evaluación de seguridad. Los benchmarks de seguridad single-turn — el estándar para anuncios de release de modelos — subestiman la seguridad de despliegue para sistemas agentic donde los atacantes controlan el contexto multi-turno. La métrica correcta para enviar es la brecha, no el piso. La recomendación de Cisco de marcar modelos con brechas cross-regime >15 puntos para revisión manual es una heurística usable: si despliegas un modelo donde el contexto adversarial se acumula a través de turnos (agentes multi-paso, soporte al cliente, pipelines de revisión de código), el número multi-turno es tu verdadera superficie de falla, no el score single-turn del titular. Los incentivos de vendedor son honestos para marcar: Cisco vende productos de seguridad IA, así que el framing "ningún modelo cerrado es seguro" está vendiendo algo. La metodología — cuentas de prompts publicadas, familias de estrategias, comparación de regímenes — es lo suficientemente creíble para que los datos puedan citarse alrededor del framing.

Si despliegas LLMs en aplicaciones de contexto adversarial el lunes por la mañana: corre el check de seguridad multi-turno tú mismo antes de enviar, y pondera la brecha no el piso. Si seleccionas entre modelos frontera para un despliegue agentic: el spread te dice qué modelos van a degradar bajo presión adversarial sostenida. El leaderboard single-turn no es el leaderboard de despliegue.

Cisco red-teams 15 modelos frontera: éxito de ataque multi-turno 8% al 88%

Más noticias