Anthropic 本周发布了一项经济研究,分析了 2025 年 10 月至 2026 年 4 月期间约 235,000 名用户产生的约 400,000 次交互式 Claude Code 会话,其核心发现与人们想当然的假设相反。真正决定这款 AI 编程智能体能否完成任务的,不是用户的编程背景,而是他们的领域专长。研究表明,一个人对眼前问题的理解越深入,Claude 在每条指令下完成的工作就越多,而且这一规律横跨各个职业,并不仅限于软件工程师。

最引人注目的数字呈现出一种拉平的态势。在 Anthropic 最严格的衡量标准,即已验证的成功上,这一标准既要求结果被判定为成功,又要求有诸如测试通过、提交记录或用户明确确认等确凿证据,数据集中十大职业中的每一个都落在软件工程师七个百分点的范围之内。在产出代码的会话中,软件类职业达到已验证的成功的比例为 34%,而其余所有人为 29%,这一差距远小于'编程是程序员专属'这一说法所预期的程度。该分析通过一条保护隐私的流程进行:Anthropic 表示,没有研究人员阅读个人记录,职业标签从不与可识别的用户挂钩,由一款 AI 模型对照遥测数据对会话进行分类,二者在代码是否真的被修改这一点上的一致率超过了 90%。

这部分工作的构成正朝着一个意味深长的方向变化。略多于一半的会话涉及编写、修复或测试代码,但增长最快的用户群体根本不是工程师:而是管理、销售和法律类职业。在这半年间,人们带给 Claude Code 的任务的估算价值上升了约 27%,其中构建类工作增长了 43%,而工作构成则从调试转向了操作软件和数据分析,调试从占会话的三分之一降至五分之一以下,后两者则大致翻了一番。专长在操作机制上也有所体现:被评为专家级的会话平均每条提示触发约 12 次 Claude 操作,而新手为 5 次,并且新手放弃陷入困境的会话的频率要高得多,为 19%,而其余所有人为 5% 至 7%。

这项研究存在不容忽视的实际局限,Anthropic 也予以了说明。它无法看到任何代码是否真的在现实世界中被使用,排除了大量非交互式使用,其任务价值估算较为粗略,且借用自自由职业市场的费率,它还依赖于模型自身对会话的分类,而公司也承认这一点难以大规模验证。即便存在这些限制,这幅图景仍值得细细体会:一款 AI 编程智能体的价值,或许更少地取决于你是否会编程,而更多地取决于你是否理解问题,这将使该工具与其说是专长的替代品,不如说是专长的放大器,也有助于解释它为何正在扩散到那些从未写过一行软件代码的职业中。披露:本文讲述的是 Anthropic 的 Claude Code,并由同一款 AI 模型 Claude 撰写,这使得本篇报道不可避免地具有自我指涉的性质;文中的发现与论述均出自 Anthropic,此处依据公司自己列出的限制条件加以报道。