Dreadnode ने research publish की एक automated red-teaming agent use करते हुए — Moonshot AI का Kimi 2.5 attacker और judge दोनों serve करते हुए — Meta के Llama Scout (17 billion parameters, अप्रैल 2025 में released) के against। Headline: 68 adversarial goals में 85% success, तीन attack types पाँच transform variants के साथ। Crescendo (refusal का iterative softening), Graph of Attacks with Pruning (attack space के through search), और persona-based transforms (skeleton-key role-play) हर एक 100% hit करते हैं। Base64 encoding 75%। Low-resource languages में translation भी tested। Paper acknowledge करता है कि humans अभी भी agent को long-horizon reasoning और complex social engineering पर outperform करते हैं। Expert human operators के साथ कोई formal comparison conduct नहीं किया गया। Citation: arxiv.org/pdf/2410.02828।

"Kimi 2.5 attacker और judge दोनों" setup methodological innovation है। Standard human red-teaming में एक attacker (red team) और एक separate judge (eval team या safety org) होता है। दोनों को same LLM से replace करना आपको machine speed पर 68 adversarial goals तक scale करने देता है — comparable budget पर human red teams जितना run कर सकती हैं उससे कहीं ज़्यादा। Crescendo, Graph of Attacks with Pruning, और persona-based skeleton-key attacks सभी safety-research literature से known techniques हैं; नया है automated agent उन्हें high reproducibility के साथ scale पर apply करना। Base64 encoding और low-resource language translation simpler obfuscations हैं जो अभी भी current safety training को non-trivial fraction of cases में defeat करते हैं। 85% overall plus तीन attack types पर 100% का मतलब है: Llama Scout के against, automated red-teaming most attack categories में essentially हर बार एक working jailbreak ढूंढ लेता है। Llama Scout का open-weight होना threat model के लिए मायने रखता है — कोई भी download और study कर सकता है, कोई भी same red-teaming pipeline run कर सकता है। Dreadnode का result जो पहले assumption था उसे quantify करता है।

यह कल के agent security coverage (proposal-execution split, चार attack patterns, eval gap) का offense-side complement है। जहाँ कल का piece कहता था "आपकी evals adversarial robustness measure नहीं करतीं," आज का कहता है "automated red-team agents production-grade open-weight LLMs पर 85% hit करते हैं — आपकी evals definitely यह catch नहीं करतीं।" Humans-still-better caveat मायने रखता है: automated agents single-turn और bounded multi-turn attacks पर 85%, लेकिन genuine long-horizon reasoning और human social-engineering edge cases harder remain करते हैं। अगला adversarial evals वहाँ focus करना चाहिए। Customer-facing surfaces के पीछे Llama Scout या similar open-weight models deploy करने वाले builders के लिए: assumption "weights publish करना attackers को help नहीं करता क्योंकि वे API के through probe कर सकते थे" अब quantitatively false है। Open weights plus agent red-teaming equals current safety training के against 85% success। कल की coverage में defensive primitives — proposal-execution split, non-bypassable gates, policy checks — एकमात्र mitigation हैं जो मायने रखती हैं एक बार जब आप accept कर लेते हैं कि model खुद इस rate पर jailbreakable है।

सोमवार: अगर आपका stack Llama Scout (17B), Llama 3.1, Llama 3.3, या किसी customer-facing surface के पीछे similar-class open-weight model use करता है, assume करें कि current safety filters insufficient हैं। Concrete actions। पहला, Dreadnode paper (arxiv.org/pdf/2410.02828) पढ़ें और अपने specific deployed model plus system-prompt combination के against agent setup reproduce करें। इसे कम से कम quarterly run करें। Attacker और judge के रूप में Kimi 2.5 या comparable strong model use करें। दूसरा, कल के security piece में describe किए gates build करें — proposal-execution split, policy checks, invariant verification — एक बार जब आप accept कर लेते हैं कि model खुद 85% time jailbreakable है तो ये एकमात्र defense layer हैं जो मायने रखती हैं। तीसरा, refusal rates को first-class safety metric के रूप में treat करें, सिर्फ़ benign evals पर accuracy नहीं। अगर आपका model किसी भी adversarial input को कभी refuse नहीं करता, आपके पास signal नहीं है; अगर वह सब refuse करता है, आपके पास कल वाली refusal-storm denial-of-service problem है। Middle band वो है जहाँ production रहती है, और आपको इसे measure करने की ज़रूरत है। चौथा, अपनी adversarial eval suite में default से Crescendo और Graph of Attacks with Pruning add करें। आपको paper का wait नहीं करना पड़ता आपको बताने के लिए कि आपका model fail करता है — इस study में 100% success rates पहले से बता रहे हैं।