Anthropic 把 Claude Security 推上了 Enterprise 客户的公开测试 —— 这个产品原名 Claude Code Security,这次拿掉了「Code」字样、范围扩大。底层跑的是 Opus 4.7(也就是 Claude Code 背后的同一个模型),对客户代码库做的是「带 agent 风格」的静态分析:追踪数据流、查看跨文件跨模块的组件交互、直接读源码,然后产出可供人工审阅的补丁指令。它住在 Claude.ai 侧边栏的 claude.ai/security 路径下,管理员控制台启用;集成方面提供 Slack 与 Jira 的 webhook,以及给审计管线用的 CSV/Markdown 导出。Team 和 Max 计划据说会跟进。

值得说的架构选择是「模型驱动分析」对「规则模式驱动分析」。Snyk、Semgrep、GitHub Advanced Security 这些工具的主体工作方式,是维护一套精挑过的规则库 —— CWE 模式、已知坏用法的 API、被 CVE 命中的依赖 —— 然后把客户代码拿来对照匹配。这种路径快、稳、可重现,擅长那些以「可识别的代码外形」呈现出来的漏洞。Claude Security 的路径相反:让一个前沿推理模型把代码读进来、对其推理。两条路的权衡也相反 —— 模型路径在跨文件数据流问题、业务逻辑缺陷、不符合静态规则的逻辑 bug 上多半更强;在「对已知模式的覆盖完整度」上多半更弱。这是真实意义上的架构转向,不是在已有扫描器外面套一层包装。

但承重的那块缺失件就在这儿:没有公开评测数据。没有公布支持的语言清单。没有误报率。没有标准基准上的精确率/召回率。没有针对同一代码库与 Snyk 或 Semgrep 的对照运行。没有价格。这次发布的语气是「我们做了这个,信我们,放你自己的代码上去验证」—— 公测期这么说没问题,但意思就是:任何想拿它和现有工具横比的开发者,都得自己做测量。生态层面的诚实信号是:前沿实验室的「垂直产品」开始上线了(这一款;OpenAI 的 Codex;Google 的 Big Sleep;Cursor/Anthropic/OpenAI 这些做企业版的多条线)。原本只「供电」给应用层的实验室,现在直接和它过去喂过的应用层竞争 —— 不论最后谁赢,这个生态走向值得跟。

如果你在 Claude Enterprise 上,打开它,挑一份你熟得不能再熟的代码库去跑一轮,然后跟你现有的扫描器栈做对照,看它发现了什么、漏了什么。评测的纪律在你这边 —— 「AI 漏洞扫描器」这个 claim 已经被喊了足够久,你应该保持怀疑直到自己量过。重点看跟 Snyk/Semgrep 结果的重叠区域:模型抓到、规则没抓到的,那是信号;规则抓到、模型没抓到的,那就是这一代模型驱动分析的边界。还值得留意的是:目前没有 GitHub PR 集成,也没有 CLI 入口 —— 大多数生产级安全工具是住在 PR 评审里的,而这个产品现在住在 claude.ai 里。这是一个有意思的产品选择,大概率是暂时的。