Datacurve DeepSWE:GPT-5.5 70%、Claude 4.7 54%、Gemini 3.1 Pro 10%——读harness

Datacurve发布了DeepSWE,一个长时程软件工程基准,包含113个任务,跨越91个仓库,使用5种语言。报告的顶级分数:GPT-5.5 70%、GPT-5.4 56%、Claude Opus 4.7 54%、Gemini 3.1 Pro 10%。标题读作"GPT-5.5获胜"。对构建者有趣的故事在方法论页面,而不是在排行榜。

该基准的四项声明优势:任务从头编写而非改编自现有PR或提交,嵌入deep-swe-canary GUID以便在语料库泄漏到预训练时可以检测污染;覆盖91个仓库和5种语言;prompt长度约为SWE-bench Pro的一半,但解决方案需要5.5倍的代码量和约2倍的输出token;手写的验证器测试软件行为而非实现细节。所有模型都通过mini-swe-agent运行以提供共同scaffold。任务示例非琐碎——"为etree添加XML diff、patch和merge操作"、"为wasmi添加trap coredump生成"、"修复PromQL在typed和untyped值之间的label排序"——这些工作在agentic时代之前需要工程师数小时。比较中的推理预算层级不对称:GPT-5.5在xhigh下运行、Claude Opus 4.7在max、Gemini 3.1 Pro未标注。

对构建者有两个相关解读。第一:GPT-5.5与Gemini 3.1 Pro之间60分的差距大到足以怀疑基准在结构上偏向某个模型的tool-use习惯,尤其是在harness惯例重要的新评估中。SWE-bench Verified分数在该领域有时间在多个scaffold上重新运行后收窄;DeepSWE可能会遵循同样的弧线。第二:Datacurve从事数据服务业务,所以一个对foundation模型排名的基准也是为构建它的公司做广告。这不否定该评估,但意味着排行榜在成为load-bearing之前需要独立重新执行。mini-swe-agent harness选择是一个scaffold——OpenHands、Aider、Claude Code风格的harness在相同任务上会产生不同的相对排序。

如果你周一早上交付使用代码的agent:在将任何新SWE基准的数字视为排序之前,阅读其方法论部分。寻找canary GUID、scaffold披露、推理预算归一化,以及评估是否生活在你可以自己运行的Docker容器中。押注方法论趋势,而非排行榜标题。

Datacurve DeepSWE:GPT-5.5 70%、Claude 4.7 54%、Gemini 3.1 Pro 10%——读harness

更多新闻