智譜AI的GLM-5.1在SWE-Bench Pro上以5.4分的成績奪得首位,超越了GPT-4的4.6分和Claude Opus在該軟體工程基準測試中的4.6分。這家中國公司完全使用10萬顆華為昇騰處理器訓練模型,在持續的半導體限制背景下刻意避免使用NVIDIA硬體。

這不僅僅代表另一個基準測試的勝利——它證明了非NVIDIA訓練基礎設施能夠在具有挑戰性的技術任務上產生競爭性結果。SWE-Bench Pro在現實世界的軟體工程問題上測試模型,使得GLM-5.1的表現對開發者來說特別重要。中國公司使用國產晶片實現這一成就的事實表明,AI發展正在沿著地緣政治路線分化,每個生態系統都在發展平行能力。

有限的報導引發了對可重現性和模型更廣泛能力的質疑。我們只有智譜AI關於訓練基礎設施的聲明,而單一基準測試並不能說明模型性能的全貌。該公司沒有發布詳細的技術規格、定價或API存取資訊,這些資訊本可以讓開發者實際測試這些能力。

對開發者而言,這對立即採用的意義不大——GLM-5.1並未廣泛可用——更重要的是它對AI格局的訊號意義。如果中國模型能夠在專門的程式設計任務上匹配西方同類產品,同時使用不同的硬體堆疊,我們正在面臨一個模型選擇既取決於地緣政治也取決於性能的未來。真正的考驗將是這些能力是否能轉化為生產環境和超越精挑細選基準測試的更廣泛任務性能。