Datacurve DeepSWE:GPT-5.5 70%、Claude 4.7 54%、Gemini 3.1 Pro 10%——讀harness

Datacurve發布了DeepSWE,一個長時程軟體工程基準,包含113個任務,跨越91個儲存庫,使用5種語言。回報的頂級分數:GPT-5.5 70%、GPT-5.4 56%、Claude Opus 4.7 54%、Gemini 3.1 Pro 10%。標題讀作「GPT-5.5獲勝」。對建構者有趣的故事在方法論頁面,而不是在排行榜。

該基準的四項聲明優勢:任務從頭撰寫而非改編自現有PR或提交,嵌入deep-swe-canary GUID以便在語料庫洩漏到預訓練時可以偵測汙染;涵蓋91個儲存庫和5種語言;prompt長度約為SWE-bench Pro的一半,但解決方案需要5.5倍的程式碼量和約2倍的輸出token;手寫的驗證器測試軟體行為而非實作細節。所有模型都透過mini-swe-agent執行以提供共同scaffold。任務範例非瑣碎——「為etree添加XML diff、patch和merge操作」、「為wasmi添加trap coredump生成」、「修復PromQL在typed和untyped值之間的label排序」——這些工作在agentic時代之前需要工程師數小時。比較中的推理預算層級不對稱:GPT-5.5在xhigh下執行、Claude Opus 4.7在max、Gemini 3.1 Pro未標註。

對建構者有兩個相關解讀。第一:GPT-5.5與Gemini 3.1 Pro之間60分的差距大到足以懷疑基準在結構上偏向某個模型的tool-use習慣,尤其是在harness慣例重要的新評估中。SWE-bench Verified分數在該領域有時間在多個scaffold上重新執行後收窄;DeepSWE可能會遵循同樣的弧線。第二:Datacurve從事資料服務業務,所以一個對foundation模型排名的基準也是為建構它的公司做廣告。這不否定該評估,但意味著排行榜在成為load-bearing之前需要獨立重新執行。mini-swe-agent harness選擇是一個scaffold——OpenHands、Aider、Claude Code風格的harness在相同任務上會產生不同的相對排序。

如果你週一早上交付使用程式碼的agent:在將任何新SWE基準的數字視為排序之前,閱讀其方法論部分。尋找canary GUID、scaffold揭露、推理預算正規化,以及評估是否生活在你可以自己執行的Docker容器中。押注方法論趨勢,而非排行榜標題。

Datacurve DeepSWE:GPT-5.5 70%、Claude 4.7 54%、Gemini 3.1 Pro 10%——讀harness

更多新聞