GitHub的Rubber Duck使用跨模型審查來捕獲AI編碼錯誤

GitHub發布了Rubber Duck，這是Copilot CLI中的一個實驗性功能，使用跨模型審查來捕獲單一AI模型持續遺漏的編碼錯誤。當開發者使用Claude作為主要編碼代理時，Rubber Duck會自動執行使用GPT-5.4的二次審查，反之亦然。系統在三個關鍵節點觸發：規劃後、複雜實現後，以及撰寫測試後但執行前。

這解決了AI編碼代理的一個根本問題：它們會放大早期錯誤，因為後續步驟建立在相同的錯誤假設之上。自我反思有所幫助，但模型審查自己的工作仍然受到創造錯誤的相同訓練偏見的限制。不同的模型系列——Anthropic的Claude與OpenAI的GPT——攜帶不同的訓練偏見，使跨模型審查在發現盲點方面更有效。

SWE-Bench Pro的基準測試結果顯示，帶有Rubber Duck的Claude Sonnet彌補了與更強大的Claude Opus之間74.7%的效能差距，在需要70+步驟的多檔案任務上收益最為明顯。GitHub的例子揭示了捕獲的錯誤類型：立即退出的排程器、背景任務中的無限迴圈，以及刪除搜尋類別的靜默資料覆寫。一個特別說明問題的案例涉及NodeBB的郵件系統，其中三個檔案從Redis金鑰讀取資料，而新程式碼已經停止寫入該金鑰——這是一個部署破壞性錯誤，且沒有錯誤訊息。

對於開發者來說，這代表著邁向更可靠的AI編碼輔助的實際步驟。對識別假設、邊界情況和需求衝突的狹窄關注表明，GitHub理解有效的AI審查不是重寫程式碼——而是識別人類開發者在部署前需要了解的特定失敗模式。

GitHub的Rubber Duck使用跨模型審查來捕獲AI編碼錯誤

更多新聞