El colaborador de Ruby Yusuke Endoh ejecutó Claude Code a través de 600 pruebas implementando un Git simplificado en 13 lenguajes de programación, revelando que los lenguajes dinámicos consistentemente superaron a las alternativas estáticas. Ruby promedió $0.36 por ejecución en 73 segundos, Python alcanzó $0.38 en 75 segundos, y JavaScript llegó a $0.39 en 81 segundos. Mientras tanto, Go costó $0.50 con varianza salvaje (desviación estándar de 37 segundos), Rust promedió $0.54 con la mayoría de fallas en las pruebas, y C se infló a $0.74 generando 517 líneas versus las 219 de Ruby.

La penalización del sistema de tipos corta profundo en los flujos de trabajo de codificación AI que muchos equipos están construyendo. Agregar verificación estricta de mypy ralentizó Python 1.6-1.7x, mientras que el verificador de tipos Steep de Ruby impuso una desaceleración brutal de 2.0-3.2x. TypeScript costó 59% más que JavaScript a pesar de conteos de líneas similares, sugiriendo que el modelo quema tokens de pensamiento extra luchando con restricciones de tipos en lugar de solo generar anotaciones. Esto no es sobre que el tipado sea malo—es sobre que los LLM luchan con la sobrecarga cognitiva de satisfacer sistemas de tipos mientras generan código.

Endoh es transparente sobre su sesgo hacia Ruby y las limitaciones del experimento: prototipos de 200 líneas no reflejan bases de código empresariales donde el tipado estático paga dividendos. Anthropic patrocinó la investigación a través de su Open Source Program, que proporcionó acceso gratuito a Claude pero no invalida la metodología. El benchmark solo midió costo y velocidad de generación, ignorando calidad de código, mantenibilidad o tasas de bugs—métricas donde el tipado estático podría recuperar ventajas.

Para equipos evaluando asistentes de codificación AI, esto sugiere comenzar con lenguajes dinámicos para prototipado rápido, luego agregar tipos selectivamente en lugar de defaultear a TypeScript o Rust. La diferencia de costo del 40-60% se acumula rápido cuando estás generando miles de fragmentos de código mensualmente.