GitHub发布了Rubber Duck,这是Copilot CLI中的一个实验性功能,使用跨模型审查来捕获单个AI模型持续遗漏的编码错误。当开发者使用Claude作为主要编码代理时,Rubber Duck会自动运行使用GPT-5.4的二次审查,反之亦然。系统在三个关键节点触发:规划后、复杂实现后,以及编写测试后但执行前。

这解决了AI编码代理的一个根本问题:它们会放大早期错误,因为后续步骤建立在相同的错误假设之上。自我反思有所帮助,但模型审查自己的工作仍然受到创造错误的相同训练偏见的限制。不同的模型系列——Anthropic的Claude与OpenAI的GPT——携带不同的训练偏见,使跨模型审查在发现盲点方面更有效。

SWE-Bench Pro的基准测试结果显示,带有Rubber Duck的Claude Sonnet弥补了与更强大的Claude Opus之间74.7%的性能差距,在需要70+步骤的多文件任务上收益最为明显。GitHub的例子揭示了捕获的错误类型:立即退出的调度器、后台任务中的无限循环,以及删除搜索类别的静默数据覆写。一个特别说明问题的案例涉及NodeBB的邮件系统,其中三个文件从Redis键读取数据,而新代码已经停止写入该键——这是一个部署破坏性错误,且没有错误消息。

对于开发者来说,这代表着迈向更可靠的AI编码辅助的实际步骤。对识别假设、边界情况和需求冲突的狭窄关注表明,GitHub理解有效的AI审查不是重写代码——而是识别人类开发者在部署前需要了解的特定失败模式。