Le contributeur Ruby Yusuke Endoh a fait tourner Claude Code à travers 600 tests d'implémentation d'un Git simplifié dans 13 langages de programmation, révélant que les langages dynamiques ont constamment surpassé les alternatives statiques. Ruby a fait une moyenne de 0,36$ par exécution en 73 secondes, Python a atteint 0,38$ en 75 secondes, et JavaScript est arrivé à 0,39$ en 81 secondes. Pendant ce temps, Go a coûté 0,50$ avec une variance folle (écart-type de 37 secondes), Rust a fait une moyenne de 0,54$ avec le plus d'échecs de tests, et C s'est gonflé à 0,74$ en générant 517 lignes contre les 219 de Ruby.

La pénalité du système de types frappe dur dans les workflows de codage AI que plusieurs équipes sont en train de construire. Ajouter la vérification stricte mypy a ralenti Python de 1,6-1,7x, tandis que le vérificateur de types Steep de Ruby a imposé un ralentissement brutal de 2,0-3,2x. TypeScript a coûté 59% de plus que JavaScript malgré un nombre de lignes similaire, suggérant que le modèle brûle des tokens de réflexion supplémentaires en luttant avec les contraintes de types plutôt que de simplement générer des annotations. Ce n'est pas que le typage soit mauvais—c'est que les LLM ont de la difficulté avec la charge cognitive de satisfaire les systèmes de types tout en générant du code.

Endoh est transparent à propos de son biais Ruby et des limites de l'expérience : des prototypes de 200 lignes ne reflètent pas les bases de code d'entreprise où le typage statique porte ses fruits. Anthropic a commandité la recherche à travers leur Open Source Program, qui a fourni un accès gratuit à Claude mais n'invalide pas la méthodologie. Le benchmark n'a mesuré que le coût et la vitesse de génération, ignorant la qualité du code, la maintenabilité ou les taux de bugs—des métriques où le typage statique pourrait récupérer des avantages.

Pour les équipes qui évaluent les assistants de codage AI, cela suggère de commencer avec des langages dynamiques pour le prototypage rapide, puis d'ajouter des types de manière sélective plutôt que de partir par défaut sur TypeScript ou Rust. La différence de coût de 40-60% s'accumule vite quand vous générez des milliers de snippets de code par mois.