Microsoft已將多模型批評系統整合到Copilot Researcher中,利用包括Anthropic和OpenAI在內的多個AI供應商的能力。該系統似乎設計為讓不同模型在研究任務中評估和改進彼此的輸出,本質上在研究工作流程中創建了AI同儕評議過程。

這一舉措反映了人們日益認識到沒有單一模型在所有方面都表現出色。雖然GPT-4可能在某些推理任務上表現良好,但Claude可能在其他方面更出色,讓它們互相批評對方的工作理論上可以產生更好的結果。這是一種明智的方法,反映了許多開發者已經在手動執行的操作——透過多個模型執行提示並比較輸出。Microsoft只是將其包裝到他們的研究工具中。

可用資訊中缺少的內容至關重要:這個批評系統究竟如何運作?哪些模型處理評估的哪些部分?當模型產生分歧時會發生什麼?沒有技術細節,就不可能評估這是否真正有用或只是行銷噱頭。其他來源缺乏詳細報導表明這可能更多是漸進式功能更新而非突破。

對於構建研究工作流程的開發者來說,如果實作得好,這可能真的有用。但真正的考驗不是概念——而是執行。多模型系統增加了複雜性、延遲和成本。如果Microsoft優雅地解決了編排挑戰,這就成為競爭優勢。如果沒有,這只是昂貴的功能冗餘,拖慢了研究任務。