Anthropic ने Claude Security beta में उतारा: Opus 4.7 vuln scans, पर public evals नहीं

Anthropic ने Claude Security को Enterprise ग्राहकों के लिए public beta में डाल दिया है — पहले इसे Claude Code Security कहा जाता था, अब generalized कर दिया गया है। उत्पाद Opus 4.7 पर चलता है (वही मॉडल जो Claude Code के पीछे है) और ग्राहक codebases पर agentic static analysis करता है: data flows trace करता है, examine करता है कि components files और modules के पार कैसे interact करते हैं, source सीधे पढ़ता है, फिर मानवीय समीक्षा के लिए patch instructions उत्पन्न करता है। यह Claude.ai sidebar में claude.ai/security पर रहता है, admin console के माध्यम से सक्षम; Slack और Jira के साथ webhook integration उपलब्ध, साथ ही audit pipelines के लिए CSV/Markdown export। Team और Max plans के लिए access आगे आने की उम्मीद है।

जो architectural choice मायने रखता है वह है *model-driven analysis* बनाम pattern-driven analysis। Snyk, Semgrep, GitHub Advanced Security सभी मुख्य रूप से क्यूरेटेड rule libraries — CWE patterns, ज्ञात-ख़राब-API usage, CVE-matched dependencies — बनाए रखकर काम करते हैं और code को उनके विरुद्ध match करते हैं। वे तेज़, deterministic, और उन vulnerabilities के लिए अच्छी तरह उपयुक्त हैं जो पहचाने जा सकने वाले code shapes के रूप में आती हैं। Claude Security का दृष्टिकोण है code को एक frontier reasoning मॉडल से पढ़ना और उस पर तर्क करना, जिसका विपरीत trade-off है: संभवतः logic bugs, business-logic flaws, और multi-file data-flow issues पर बेहतर जो static rule में फ़िट नहीं होते; ज्ञात patterns के लिए coverage-completeness पर संभवतः बदतर। यह वास्तविक architectural shift है, मौजूदा scanner के चारों ओर wrapper नहीं।

यहाँ है भार-वहन ग़ायब टुकड़ा: कोई public eval data नहीं है। कोई supported-language list ज़ाहिर नहीं। कोई false-positive rate नहीं। मानक benchmark पर कोई precision/recall नहीं। एक ही codebase पर Snyk या Semgrep के विरुद्ध कोई comparison run नहीं। कोई pricing नहीं। घोषणा "हमने यह बनाया; हम पर भरोसा करें, अपने code पर मूल्यांकन करें" की तरह पढ़ी जाती है — जो public beta के लिए ठीक है, पर मतलब यह है कि अपने मौजूदा tooling के विरुद्ध इसका मूल्यांकन कर रहे builders को अपना ख़ुद का measurement काम करना होगा। ईमानदार ecosystem संकेत यह है कि frontier-lab vertical products अब online आ रहे हैं (यह; OpenAI का Codex; Google का Big Sleep; विभिन्न Cursor/Anthropic/OpenAI enterprise plays)। Lab-as-product-vendor सीधे उस application परत के साथ प्रतिस्पर्धा कर रहा है जिसे वह पहले सिर्फ़ powered करता था — यह एक असली ecosystem move है जिसे track करना सार्थक है, परवाह किए बिना कि कौन-सा specific उत्पाद जीतता है।

अगर आप Claude Enterprise पर हैं, इसे चालू करें, इसे एक codebase पर चलाएँ जिसे आप अच्छी तरह जानते हैं, और देखें कि यह क्या पाता है और क्या आपके मौजूदा scanner stack के विरुद्ध छूट जाता है। Eval discipline आप पर है — "AI vulnerability scanner" claims पर्याप्त समय से हैं कि आपको scepticism बनाए रखना चाहिए जब तक आप माप नहीं लेते। Snyk/Semgrep परिणामों के साथ overlap पर ध्यान दें: जहाँ मॉडल कुछ पाता है जो patterns चूकते हैं, वह signal है; जहाँ patterns कुछ पकड़ते हैं जो मॉडल चूकता है, वह इस पीढ़ी पर model-driven analysis की सीमा है। GitHub PR या CLI integration की उल्लेखनीय अनुपस्थिति flag करने योग्य है — अधिकांश production security tooling PR review में रहता है, और यह वर्तमान में claude.ai में रहता है। यह एक रोचक उत्पाद विकल्प है, संभवतः अस्थायी।

Anthropic ने Claude Security beta में उतारा: Opus 4.7 vuln scans, पर public evals नहीं

और समाचार