O tutorial do Shittu Olumide para construir um sumarizador de reuniões com IA afirma que você pode agora construir aplicações prontas para produção usando apenas LLMs e ferramentas gratuitas. Sua stack inclui modelos como GLM-4.7-Flash da Zhipu AI e LFM2-2.6B-Transcript para transcrição, combinados com Ollama para inferência local e a API Gemini do Google para requisições na nuvem gratuitas. O tutorial promete uma aplicação React/FastAPI completa que transcreve gravações de voz e extrai itens de ação sem gastar dinheiro em APIs comerciais.

Isso reflete uma mudança real na economia da IA. Modelos open-source fecharam muito da lacuna de qualidade com ofertas comerciais, e o modelo "traga sua própria chave" está criando novas opções de deployment. Mas existe uma diferença entre "gratuito" e "custo zero". Executar modelos localmente requer hardware decente, e níveis gratuitos de API têm limites de uso que desaparecem rapidamente em produção. A promessa de "performance state-of-the-art" dos modelos gratuitos é exagero — eles são bons o suficiente para muitos casos de uso, mas não substituem GPT-4 ou Claude para tarefas de raciocínio complexo.

O que está faltando nessa narrativa é a realidade operacional. Níveis gratuitos somem quando você escala, inferência local é mais lenta e menos confiável que APIs na nuvem, e fazer debug de problemas de performance do modelo vira seu problema ao invés do da OpenAI. A alegação de "orçamento zero" funciona para protótipos e projetos paralelos, mas aplicações de produção ainda precisam de fallbacks, monitoramento e suporte — nada disso é gratuito.

Para desenvolvedores, isso ainda é valioso. Modelos gratuitos são excelentes para experimentação, aprendizado e validação de ideias antes de se comprometer com infraestrutura paga. Só não confunda uma boa stack de protótipo com uma arquitetura de produção.