Cisco 15 फ्रंटियर मॉडल्स की रेड-टीम: मल्टी-टर्न अटैक सफलता 8% से 88%

Cisco AI Threat Research ने OpenAI, Anthropic, Google, Amazon, और xAI के 15 स्वामित्व वाले फ्रंटियर मॉडलों पर एक प्रतिकूल मूल्यांकन प्रकाशित किया, जिसमें 1,456 वार्तालापों पर 6,986 मल्टी-टर्न हमले और 30,090 सिंगल-टर्न prompts वितरित किए गए। मल्टी-टर्न हमला सफलता दर: Grok 4.1 Fast (non-reasoning) 88.3%, Gemini 3 Pro 73.4%, GPT-5.4 24.7%, Claude Opus 4.6 16.2%, Claude Opus 4.5 11.2%, Nova 2 Lite 7.9%। सबसे अधिक पढ़ने योग्य संख्याएँ निरपेक्ष दरें नहीं हैं बल्कि सिंगल-टू-मल्टी-टर्न अंतर हैं — Claude मॉडल्स ने सबसे संकीर्ण स्प्रेड (9 से 12 प्रतिशत बिंदु) रखे, जबकि Gemini 3 Pro और Grok 4.1 Fast एक बार हमलावरों के एक prompt से आगे जाने पर 54-55 बिंदुओं तक चौड़े हो गए।

हमला पद्धति पाँच रणनीति परिवारों को कवर करती है: भूमिका और persona अपनाना, संदर्भात्मक अस्पष्टता, अस्वीकृति पुनः फ्रेमिंग, सूचना विघटन और पुनर्संयोजन, और crescendo शैली की वृद्धिशील वृद्धि। शीर्ष सिंगल-टर्न हमले "Imposter AI" 37.5% सफलता, soft paraphrase 29.2%, और system-prompt हमले 27.7% थे। Reasoning मोड कॉन्फ़िगरेशन परिणामों को नाटकीय रूप से बदलता है — Grok 4.1 Fast 88.3% मल्टी-टर्न सफलता से 43.5% तक गिर गया जब reasoning सक्षम था। Nova 2 Lite डेटासेट में आउटलायर है, जिसकी मल्टी-टर्न सफलता सिंगल-टर्न से 26.2 बिंदु कम है, जो कहता है या तो मॉडल जल्दी break करता है, या मल्टी-टर्न रणनीतियाँ इसके refusal प्रशिक्षण के लिए गलत लक्षित हैं।

बिल्डर-फ्रेम रीडिंग यह में बसती है कि यह सुरक्षा मूल्यांकन के बारे में क्या बदलता है। सिंगल-टर्न सुरक्षा बेंचमार्क — मॉडल रिलीज़ घोषणाओं के लिए मानक — agentic सिस्टम के लिए परिनियोजन सुरक्षा का कम-पूर्वानुमान करते हैं जहाँ हमलावर मल्टी-टर्न संदर्भ नियंत्रित करते हैं। शिप करने के लिए सही मीट्रिक अंतर है, फर्श नहीं। Cisco की मैनुअल समीक्षा के लिए >15-बिंदु cross-regime अंतर वाले मॉडलों को फ्लैग करने की सिफारिश एक उपयोगी अनुमानी है: यदि आप एक मॉडल तैनात करते हैं जहाँ प्रतिकूल संदर्भ टर्न में जमा होता है (मल्टी-स्टेप agent, ग्राहक सहायता, कोड समीक्षा pipeline), मल्टी-टर्न संख्या आपकी वास्तविक विफलता सतह है, सुर्खी सिंगल-टर्न स्कोर नहीं। विक्रेता प्रोत्साहन फ्लैग करने के लिए ईमानदार हैं: Cisco AI सुरक्षा उत्पाद बेचता है, इसलिए "कोई बंद मॉडल सुरक्षित नहीं है" फ्रेमिंग कुछ बेच रही है। पद्धति — प्रकाशित prompt गिनती, रणनीति परिवार, regime तुलना — पर्याप्त विश्वसनीय है कि डेटा फ्रेमिंग के आसपास उद्धृत किया जा सकता है।

यदि आप सोमवार सुबह प्रतिकूल-संदर्भ अनुप्रयोगों में LLMs तैनात करते हैं: शिप करने से पहले स्वयं मल्टी-टर्न सुरक्षा जाँच चलाएँ, और अंतर को भारित करें, फर्श को नहीं। यदि आप agentic परिनियोजन के लिए फ्रंटियर मॉडलों के बीच चयन करते हैं: स्प्रेड आपको बताता है कि कौन से मॉडल निरंतर प्रतिकूल दबाव में गिरावट करेंगे। सिंगल-टर्न लीडरबोर्ड परिनियोजन लीडरबोर्ड नहीं है।

Cisco 15 फ्रंटियर मॉडल्स की रेड-टीम: मल्टी-टर्न अटैक सफलता 8% से 88%

और समाचार