Agentic AI security पर एक नया survey LLM-based operations agents (जो real production access रखते हैं) के विरुद्ध चार concrete attack patterns को नाम देता है। Prompt injection: Jira ticket या wiki page में embedded malicious instructions agent को unsafe action की तरफ steer करते हैं। Retrieval poisoning: corrupted runbooks और incident histories agent diagnoses को attacker objectives की तरफ bias करते हैं। Retrieval jamming: knowledge bases को blocker documents से flood करना refusal loops trigger करता है, incident response stalling — agent के decision loop के विरुद्ध denial-of-service। Telemetry manipulation: attackers metrics और logs को influence करते हैं mitigation decisions steer करने के लिए बिना model को touch किए। Common thread: confused-deputy problem। Agent के पास legitimate API access है, लेकिन उसके decisions को shape करने वाले artifacts — tickets, logs, transcripts, wiki pages, retrieved documents — ठीक वो surfaces हैं जिन्हें attackers compromise कर सकते हैं।
Proposed defense model-level के बजाय architectural है। Proposal vs execution split: language model reason, evidence retrieve, change proposals draft करता है — और writes execute नहीं कर सकता। सभी production changes non-bypassable gates से होकर guzrते हैं जो policy checks, invariant verification, जहाँ change warrant करे human approval, और staged rollback enforce करते हैं। Survey जिस risk tiering पर land होता है: read-only assistance low-risk है; strong gates के साथ bounded execution defensible है; verification scaffolding के बिना open-ended self-healing higher-risk claim है जो skepticism deserve करता है। Evaluation gap वो part है जिस पर अधिकांश builders को ध्यान देना चाहिए: current benchmarks tool-call traces, gate-violation rates, adversarial input behavior, jamming के तहत refusal-storm rates, rollback completeness miss करते हैं। Clean incidents पर well perform करने वाले systems hostile Jira tickets के तहत collapse कर सकते हैं और eval suite को कभी पता नहीं चलेगा।
Ecosystem context। यह उस चीज़ का threat-model side है जो Anthropic ने इस week Managed Agents और MCP Tunnels के साथ ship किया। Architectural primitives जो agents को production systems reach करने देते हैं वही हैं जहाँ confused-deputy class of attack open होता है। Anthropic का Auto Mode destructive-action screening (Code With Claude पर announced) इस survey द्वारा called for gate का एक रूप है; broader question है कि किस risk tier के लिए gates का कौन सा set sufficient है। Current eval landscape gap structural है: SWE-bench Verified, MMLU, और clean-incident agent benchmarks cooperating inputs के तहत capability measure करते हैं। Adversarial robustness — refusal-storm rates, gate-violation rates, prompt-injection resistance — benchmark level पर largely unmeasured है। Anthropic की Capability Curve narrative (SWE-bench Verified पर 62 से 87%) एक axis measure करती है; इस survey का framing दिखाता है कि orthogonal axis वो है जहाँ production-grade agents वास्तव में जीते या मरते हैं। Wrapper-ecosystem builders (LangGraph, AutoGen, CrewAI) के लिए, confused-deputy framing के design implications हैं: state management और tool-call routing layers वो हैं जहाँ gates को live करने की ज़रूरत है, model में नहीं।
सोमवार: अगर आप production access के साथ agents ship करते हैं (CI runners, incident response, infra automation, support-side ticketing automation), इस week चार patterns के against अपने stack को audit करें। Concrete actions। पहला, हर input को list करें जिसे agent trusted treat करता है — tickets, wiki, telemetry, Slack threads, retrieved documents — और assume करें कि हर एक hostile हो सकता है; threat attacker द्वारा injected content है, model jailbreak नहीं। दूसरा, proposal-execution split implement करें: agent drafts, एक non-bypassable gate (policy check, invariant verify, optional human approval) executes। Gate वो है जहाँ security review concentrate होता है, model prompt नहीं। तीसरा, adversarial inputs के लिए evals add करें — minimum, prompt-injected tickets, poisoned retrieval contexts, और refusal-storm scenarios। चौथा, refusal-storm rates को explicit metric के रूप में watch करें। एक agent जो "hostile inputs के तहत act नहीं करता" isolation में safe दिखता है लेकिन jamming के तहत real incident response को stall करता है — दोनों failure modes को अलग budgets चाहिए। Clean-eval-benchmark trap real है। Adversarial robustness raw capability के बाद next eval axis है, और अधिकांश production agent deployments अभी इसे measure नहीं कर रहे।
