O sistema funciona como matchmaking competitivo: usuários enviam prompts, dois modelos anônimos respondem e o usuário escolhe um vencedor (ou declara empate). Ao longo de centenas de milhares de votos, as classificações ELO se estabilizam para refletir diferenças genuínas de qualidade. O anonimato é crucial — usuários julgam a resposta, não a marca. Modelos são periodicamente adicionados e removidos conforme novas versões lançam.
Classificações ELO fornecem um único número por modelo, o que é útil para comparação rápida mas obscurece detalhes importantes. Um modelo pode ser melhor em codificação mas pior em escrita criativa; ELO faz a média disso. O Arena introduziu classificações por categoria (codificação, matemática, escrita criativa, seguir instruções) para abordar isso. ELO também requer muitos votos para estabilizar — um modelo novo precisa de milhares de comparações antes que sua classificação seja confiável.
A votação no Arena tem viéses conhecidos: usuários tendem a preferir respostas mais longas, respostas com formatação (bullet points, cabeçalhos) e respostas mais confiantes (mesmo quando erradas). Alguns laboratórios foram suspeitos de otimizar para preferências estilo Arena em vez de qualidade genuína. A equipe do LMSYS trabalha para mitigar esses viéses através de métodos estatísticos e aumento do volume de votos, mas eles são inerentes a qualquer avaliação baseada em preferência.