O contribuidor do Ruby Yusuke Endoh rodou Claude Code através de 600 testes implementando um Git simplificado em 13 linguagens de programação, revelando que linguagens dinâmicas consistentemente superaram alternativas estáticas. Ruby teve média de $0.36 por execução em 73 segundos, Python atingiu $0.38 em 75 segundos, e JavaScript chegou a $0.39 em 81 segundos. Enquanto isso, Go custou $0.50 com variância selvagem (desvio padrão de 37 segundos), Rust teve média de $0.54 com mais falhas nos testes, e C inchou para $0.74 gerando 517 linhas versus as 219 do Ruby.
A penalidade do sistema de tipos corta fundo nos workflows de codificação AI que muitas equipes estão construindo. Adicionar verificação estrita do mypy desacelerou Python em 1.6-1.7x, enquanto o verificador de tipos Steep do Ruby impôs uma desaceleração brutal de 2.0-3.2x. TypeScript custou 59% mais que JavaScript apesar de contagens de linha similares, sugerindo que o modelo queima tokens de pensamento extra lutando com restrições de tipos ao invés de apenas gerar anotações. Isso não é sobre tipagem ser ruim—é sobre LLMs lutando com a sobrecarga cognitiva de satisfazer sistemas de tipos enquanto geram código.
Endoh é transparente sobre seu viés Ruby e as limitações do experimento: protótipos de 200 linhas não refletem bases de código empresariais onde tipagem estática paga dividendos. Anthropic patrocinou a pesquisa através de seu Open Source Program, que forneceu acesso gratuito ao Claude mas não invalida a metodologia. O benchmark apenas mediu custo e velocidade de geração, ignorando qualidade de código, manutenibilidade ou taxas de bug—métricas onde tipagem estática pode recuperar vantagens.
Para equipes avaliando assistentes de codificação AI, isso sugere começar com linguagens dinâmicas para prototipagem rápida, então adicionar tipos seletivamente ao invés de usar TypeScript ou Rust por padrão. A diferença de custo de 40-60% se acumula rápido quando você está gerando milhares de snippets de código mensalmente.
