GitHub發布了Rubber Duck,這是Copilot CLI中的一個實驗性功能,使用跨模型審查來捕獲單一AI模型持續遺漏的編碼錯誤。當開發者使用Claude作為主要編碼代理時,Rubber Duck會自動執行使用GPT-5.4的二次審查,反之亦然。系統在三個關鍵節點觸發:規劃後、複雜實現後,以及撰寫測試後但執行前。
這解決了AI編碼代理的一個根本問題:它們會放大早期錯誤,因為後續步驟建立在相同的錯誤假設之上。自我反思有所幫助,但模型審查自己的工作仍然受到創造錯誤的相同訓練偏見的限制。不同的模型系列——Anthropic的Claude與OpenAI的GPT——攜帶不同的訓練偏見,使跨模型審查在發現盲點方面更有效。
SWE-Bench Pro的基準測試結果顯示,帶有Rubber Duck的Claude Sonnet彌補了與更強大的Claude Opus之間74.7%的效能差距,在需要70+步驟的多檔案任務上收益最為明顯。GitHub的例子揭示了捕獲的錯誤類型:立即退出的排程器、背景任務中的無限迴圈,以及刪除搜尋類別的靜默資料覆寫。一個特別說明問題的案例涉及NodeBB的郵件系統,其中三個檔案從Redis金鑰讀取資料,而新程式碼已經停止寫入該金鑰——這是一個部署破壞性錯誤,且沒有錯誤訊息。
對於開發者來說,這代表著邁向更可靠的AI編碼輔助的實際步驟。對識別假設、邊界情況和需求衝突的狹窄關注表明,GitHub理解有效的AI審查不是重寫程式碼——而是識別人類開發者在部署前需要了解的特定失敗模式。
