系統的運作方式類似競技配對:使用者提交提示,兩個匿名模型回應,使用者選出贏家(或宣布平手)。經過數十萬票的累積,ELO 評分穩定下來反映真正的品質差異。匿名性至關重要——使用者判斷的是回應,而非品牌。隨著新版本推出,模型會定期被新增和移除。
ELO 評分為每個模型提供單一數字,這對快速比較有用,但遮蔽了重要細節。一個模型可能在程式設計上更好但在創意寫作上更差;ELO 將這些平均化了。Arena 引入了類別特定評分(程式設計、數學、創意寫作、指令遵循)來解決這個問題。ELO 也需要大量投票才能穩定——一個新模型需要數千次比較,其評分才可靠。
Arena 投票存在已知偏見:使用者傾向偏好較長的回應、帶有格式(項目符號、標題)的回應,以及更自信的回應(即使錯誤)。一些實驗室被懷疑針對 Arena 風格的偏好進行優化,而非真正的品質。LMSYS 團隊透過統計方法和增加投票量來努力減輕這些偏見,但它們是任何基於偏好的評估所固有的。