Le tutoriel de Shittu Olumide pour construire un résumeur de réunions IA prétend qu'on peut maintenant développer des applications prêtes pour la production en utilisant seulement des LLM et outils gratuits. Sa pile technologique inclut des modèles comme GLM-4.7-Flash de Zhipu AI et LFM2-2.6B-Transcript pour la transcription, combinés avec Ollama pour l'inférence locale et l'API Gemini de Google pour les requêtes cloud gratuites. Le tutoriel promet une application React/FastAPI complète qui transcrit les enregistrements vocaux et extrait les éléments d'action sans dépenser d'argent sur des API commerciales.
Ceci reflète un vrai changement dans l'économie de l'IA. Les modèles open-source ont comblé une grande partie de l'écart de qualité avec les offres commerciales, et le modèle "apportez votre propre clé" crée de nouvelles options de déploiement. Mais il y a une différence entre "gratuit" et "coût zéro". Faire rouler des modèles localement nécessite du matériel décent, et les niveaux gratuits d'API ont des limites d'usage qui disparaissent rapidement en production. La promesse de "performance à la fine pointe" des modèles gratuits, c'est de la survente — ils sont assez bons pour plusieurs cas d'usage, mais remplacent pas GPT-4 ou Claude pour les tâches de raisonnement complexe.
Ce qui manque dans ce récit, c'est la réalité opérationnelle. Les niveaux gratuits disparaissent quand on scale, l'inférence locale est plus lente et moins fiable que les API cloud, et déboguer les problèmes de performance des modèles devient ton problème au lieu d'être celui d'OpenAI. La prétention de "budget zéro" marche pour les prototypes et projets secondaires, mais les applications de production ont encore besoin de solutions de rechange, de monitoring et de support — rien de tout ça est gratuit.
Pour les développeurs, c'est quand même valuable. Les modèles gratuits sont excellents pour l'expérimentation, l'apprentissage et valider des idées avant de s'engager dans une infrastructure payante. Juste confondez pas une bonne pile de prototype avec une architecture de production.
