El sistema funciona como matchmaking competitivo: los usuarios envían prompts, dos modelos anónimos responden, y el usuario elige un ganador (o declara un empate). A lo largo de cientos de miles de votos, los ratings ELO se estabilizan para reflejar diferencias genuinas de calidad. El anonimato es crucial — los usuarios juzgan la respuesta, no la marca. Los modelos se añaden y eliminan periódicamente conforme se lanzan nuevas versiones.
Los ratings ELO proporcionan un solo número por modelo, lo cual es útil para comparación rápida pero oscurece detalles importantes. Un modelo podría ser mejor en programación pero peor en escritura creativa; ELO promedia esto. La Arena introdujo ratings específicos por categoría (programación, matemáticas, escritura creativa, seguimiento de instrucciones) para abordar esto. ELO también requiere muchos votos para estabilizarse — un modelo nuevo necesita miles de comparaciones antes de que su rating sea fiable.
La votación en la Arena tiene sesgos conocidos: los usuarios tienden a preferir respuestas más largas, respuestas con formato (viñetas, encabezados) y respuestas más confiadas (incluso si están equivocadas). Algunos laboratorios han sido sospechosos de optimizar para preferencias estilo Arena en lugar de calidad genuina. El equipo de LMSYS trabaja para mitigar estos sesgos mediante métodos estadísticos y aumentando el volumen de votos, pero son inherentes a cualquier evaluación basada en preferencias.