Le système fonctionne comme un matchmaking compétitif : les utilisateurs soumettent des prompts, deux modèles anonymes répondent, et l'utilisateur choisit un gagnant (ou déclare un match nul). Sur des centaines de milliers de votes, les scores ELO se stabilisent pour refléter de véritables différences de qualité. L'anonymat est crucial — les utilisateurs jugent la réponse, pas la marque. Les modèles sont périodiquement ajoutés et retirés au fur et à mesure que de nouvelles versions sont lancées.
Les scores ELO fournissent un seul nombre par modèle, ce qui est utile pour une comparaison rapide mais masque des détails importants. Un modèle pourrait être meilleur en programmation mais moins bon en écriture créative ; ELO fait la moyenne de tout. L'Arena a introduit des scores par catégorie (programmation, mathématiques, écriture créative, suivi d'instructions) pour résoudre cela. ELO nécessite aussi beaucoup de votes pour se stabiliser — un nouveau modèle a besoin de milliers de comparaisons avant que son score soit fiable.
Le vote Arena a des biais connus : les utilisateurs tendent à préférer les réponses plus longues, les réponses avec de la mise en forme (listes à puces, titres), et les réponses plus confiantes (même si elles sont fausses). Certains labos ont été soupçonnés d'optimiser pour les préférences de type Arena plutôt que pour la qualité réelle. L'équipe LMSYS travaille à atténuer ces biais par des méthodes statistiques et en augmentant le volume de votes, mais ils sont inhérents à toute évaluation basée sur les préférences.