Microsoft已将多模型批评系统集成到Copilot Researcher中,利用包括Anthropic和OpenAI在内的多个AI提供商的能力。该系统似乎设计为让不同模型在研究任务中评估和完善彼此的输出,本质上在研究工作流程中创建了AI同行评议过程。

这一举措反映了人们日益认识到没有单一模型在所有方面都表现出色。虽然GPT-4可能在某些推理任务上表现良好,但Claude可能在其他方面更出色,让它们互相批评对方的工作理论上可以产生更好的结果。这是一种明智的方法,反映了许多开发者已经在手动执行的操作——通过多个模型运行提示并比较输出。Microsoft只是将其打包到他们的研究工具中。

可用信息中缺少的内容至关重要:这个批评系统究竟如何工作?哪些模型处理评估的哪些部分?当模型产生分歧时会发生什么?没有技术细节,就不可能评估这是否真正有用或只是营销噱头。其他来源缺乏详细报道表明这可能更多是增量功能更新而非突破。

对于构建研究工作流程的开发者来说,如果实现得好,这可能真的有用。但真正的考验不是概念——而是执行。多模型系统增加了复杂性、延迟和成本。如果Microsoft优雅地解决了编排挑战,这就成为竞争优势。如果没有,这只是昂贵的功能冗余,拖慢了研究任务。