该系统的工作方式类似竞技配对:用户提交提示,两个匿名模型回应,用户选出胜者(或宣布平局)。经过数十万次投票,ELO评分趋于稳定,反映出真正的质量差异。匿名性至关重要——用户评判的是响应而非品牌。随着新版本发布,模型会定期被添加和移除。
ELO评分为每个模型提供一个数字,便于快速比较但掩盖了重要细节。一个模型可能在编程方面更好但在创意写作方面更差;ELO将这些平均化了。Arena引入了特定类别的评分(编程、数学、创意写作、指令遵循)来解决这个问题。ELO还需要大量投票才能稳定——一个新模型需要数千次比较才能使其评分可靠。
Arena投票存在已知偏差:用户倾向于偏好更长的响应、带有格式的响应(项目符号、标题),以及更自信的响应(即使是错的)。一些实验室被怀疑在为Arena风格的偏好进行优化,而非追求真正的质量。LMSYS团队通过统计方法和增加投票量来缓解这些偏差,但这些是任何基于偏好的评估所固有的。