IBM 于 4 月 28 日宣布 Bob 正式可用,这是一款面向背负技术债、混合云和合规要求的企业开发平台。Bob 覆盖完整 SDLC —— 发现、规划、编码、测试、部署、运维 —— 并使用基于角色的 agent,通过受治理的工作流加以协调。该发布与 GitHub 宣布 Copilot 按用量计费同周到来,定调相似:面向企业的 AI 开发工具必须控制成本和风险,而不仅仅是加快打字速度。IBM 表示自有 8 万员工已在使用 Bob,平均生产力提升 45% —— 在被独立验证之前,这个数字应归入"厂商自我汇报"一档。
底层来看,Bob 是一个模型路由平台。它混合前沿 LLM(未具名)、开源模型、IBM 自家的 Granite SLM 以及面向特定任务的微调模型,按任务依据准确率、延迟和成本进行选择。其 agentic 部分,是在测试、文档与 CI/CD 流水线之间做多 agent 协调,边界处加以 human-in-the-loop 控制。最具差异化、也是其他多数 AI 开发工具默默回避的能力,是大型机现代化。IBM 引用克罗地亚政府 IT 运营商 APIS IT 的案例,迁移 .NET 服务与 JCL/PL/I 老系统,声称架构文档交付速度提高 10 倍,且"在 JCL/PL/I 老系统上达到 100% 准确率"。后一种说法只有在能看到测试语料的前提下才有意义;孤立来看,这就是营销。
IBM 来过这里。Watson AIOps、Watson Code Assistant for Z、最早的 Watson Discovery —— IBM 多次发布过面向企业的 AI 开发工具,客户结果的轨迹一向参差。Bob 之所以值得关注,在于其架构确实现代 —— 多 agent 加 SLM 与前沿 LLM 之间的模型路由,而不只是一个大模型套个壳 —— 同时大型机支持是一道真实护城河。Cursor、Claude Code 与 Copilot 都不自带 PL/I 专长。但 IBM 提到的失败模式都是真的:在无文档老环境中的幻觉、各自为政的 RAG 数据孤岛、模型给出语法正确但功能无用的代码。Bob 究竟解决了这些问题,还是用多 agent 编排粉饰过去 —— 这是悬而未决的问题,IBM 的发布材料并不作答。
对于不在企业 SDLC 一线的 builders 而言,Bob 主要是一个市场信号:IBM 认为下一轮企业 AI 开发工具竞争将围绕治理、模型路由和遗留系统集成展开,而不是聊天速度。对于身处带有大型机债务的企业内部的 builders,这是少数几个明确瞄准你问题的选择;聪明做法是在一个受控的遗留模块上试点,并对照你自己的代码库测量真实的幻觉率,而不是相信 100% 准确率的标题。30 天试用就是为此准备的杠杆。对所有关注此领域的人而言:留意 IBM 的模型路由模式 —— 用小型 Granite 处理量大但便宜的任务、用前沿 LLM 处理硬任务,这种架构是任何成本敏感的企业都会想复制的,无论用不用 IBM。
