GitHub的Rubber Duck使用跨模型审查来捕获AI编码错误

GitHub发布了Rubber Duck，这是Copilot CLI中的一个实验性功能，使用跨模型审查来捕获单个AI模型持续遗漏的编码错误。当开发者使用Claude作为主要编码代理时，Rubber Duck会自动运行使用GPT-5.4的二次审查，反之亦然。系统在三个关键节点触发：规划后、复杂实现后，以及编写测试后但执行前。

这解决了AI编码代理的一个根本问题：它们会放大早期错误，因为后续步骤建立在相同的错误假设之上。自我反思有所帮助，但模型审查自己的工作仍然受到创造错误的相同训练偏见的限制。不同的模型系列——Anthropic的Claude与OpenAI的GPT——携带不同的训练偏见，使跨模型审查在发现盲点方面更有效。

SWE-Bench Pro的基准测试结果显示，带有Rubber Duck的Claude Sonnet弥补了与更强大的Claude Opus之间74.7%的性能差距，在需要70+步骤的多文件任务上收益最为明显。GitHub的例子揭示了捕获的错误类型：立即退出的调度器、后台任务中的无限循环，以及删除搜索类别的静默数据覆写。一个特别说明问题的案例涉及NodeBB的邮件系统，其中三个文件从Redis键读取数据，而新代码已经停止写入该键——这是一个部署破坏性错误，且没有错误消息。

对于开发者来说，这代表着迈向更可靠的AI编码辅助的实际步骤。对识别假设、边界情况和需求冲突的狭窄关注表明，GitHub理解有效的AI审查不是重写代码——而是识别人类开发者在部署前需要了解的特定失败模式。

GitHub的Rubber Duck使用跨模型审查来捕获AI编码错误

更多新闻