L'unité de tarification standard pour les grands modèles de langage est le token — environ trois quarts d'un mot en anglais. Quand vous envoyez un message à une API comme celle d'OpenAI ou d'Anthropic, vous êtes facturé séparément pour les tokens d'entrée (ce que vous envoyez) et les tokens de sortie (ce que le modèle génère). Les tokens de sortie coûtent plus cher parce qu'ils nécessitent un calcul séquentiel — le modèle doit les générer un par un, ce qui est plus lent et plus intensif en GPU que le traitement des tokens d'entrée en parallèle. Début 2026, les prix pour les modèles de pointe vont d'environ 2 à 15 $ par million de tokens d'entrée et de 8 à 60 $ par million de tokens de sortie, selon le fournisseur et le niveau de modèle. Cela peut sembler bon marché jusqu'à ce qu'on réalise qu'une application active servant 100 000 utilisateurs pourrait facilement consommer des milliards de tokens par mois.
Les prix de l'IA ont chuté plus vite que presque tous les analystes l'avaient prédit. Le GPT-3.5 d'OpenAI a été lancé début 2023 à 2 $ par million de tokens ; à la mi-2024, des modèles de qualité équivalente étaient disponibles pour 0,10 à 0,25 $ par million de tokens auprès de fournisseurs comme DeepSeek, Mistral et Google (via Gemini Flash). Cette réduction de prix d'environ 10 à 50 fois en 18 mois résulte de trois forces convergentes : les améliorations matérielles (les H100 sont environ 3 fois plus efficaces que les A100 pour l'inférence), les optimisations logicielles (traitement par lots continu, décodage spéculatif et quantification), et la pression concurrentielle (les modèles à poids ouverts de DeepSeek ont forcé les fournisseurs commerciaux à réduire leurs marges). Le schéma continue — chaque nouvelle génération de puces d'inférence et de cadres de service pousse les coûts encore plus bas. Pour les développeurs, cela signifie que le modèle qui était trop cher pour votre cas d'utilisation il y a six mois pourrait être abordable aujourd'hui.
Tout ne rentre pas proprement dans la tarification par token. Les modèles de génération d'images comme DALL-E et Stable Diffusion facturent par image (typiquement 0,02 à 0,08 $ par image selon la résolution). Les modèles vidéo facturent par seconde de vidéo générée — Gen-3 de Runway coûte environ 0,05 $ par seconde, ce qui s'accumule vite pour les clips plus longs. Les modèles vocaux facturent par caractère ou par minute d'audio. Les modèles de plongement facturent par token mais à des tarifs bien inférieurs aux modèles génératifs (souvent 0,01 à 0,10 $ par million de tokens). Certains fournisseurs offrent des modèles d'abonnement : ChatGPT Plus à 20 $/mois, Claude Pro à 20 $/mois, donnant aux utilisateurs un accès illimité (dans les limites de débit) aux derniers modèles. Pour les clients d'entreprise, les remises sur engagement — s'engager à dépenser 100 000 $+ par an en échange de 20 à 40 % de rabais sur le prix catalogue — sont la norme. Et plusieurs fournisseurs offrent des niveaux gratuits généreux : l'API Gemini de Google, La Plateforme de Mistral et Groq permettent tous aux développeurs d'expérimenter gratuitement jusqu'à certains seuils d'utilisation.
Le levier le plus puissant pour réduire les coûts d'IA n'est pas de négocier avec votre fournisseur — c'est de choisir le bon modèle pour la tâche. Un modèle de pointe comme Claude Opus ou GPT-4o est excessif pour la classification, l'extraction ou la simple synthèse ; un modèle plus petit comme Claude Haiku, Gemini Flash ou Mistral Small peut gérer ces tâches à un coût 10 à 50 fois moindre avec une précision comparable. L'ingénierie de prompts compte aussi : un prompt système de 2 000 tokens vous coûte ces tokens à chaque appel API, donc le réduire fait économiser de l'argent à grande échelle. La mise en cache est un autre outil puissant — la mise en cache de prompts d'Anthropic et la mise en cache automatique d'OpenAI vous permettent toutes deux de payer des tarifs réduits pour le contexte répété, ce qui est particulièrement précieux pour les applications qui envoient le même prompt système ou contexte documentaire avec chaque requête. Enfin, regrouper les requêtes non urgentes (en utilisant l'API Batch d'OpenAI ou des offres similaires) vous donne typiquement un rabais de 50 % en échange d'une latence plus élevée.
La tarification par token est le coût visible, mais ce n'est pas l'image complète. L'utilisation de la fenêtre de contexte compte énormément : bourrer une fenêtre de contexte de 128 000 tokens avec des documents à chaque appel est techniquement possible mais financièrement douloureux. Les modèles de raisonnement comme o1 et o3 d'OpenAI génèrent des tokens de « réflexion » internes que vous payez même si vous ne les voyez jamais — une seule requête complexe peut consommer plus de 10 000 tokens de réflexion en plus de la réponse visible. Les limites de débit imposent un coût caché aussi : si votre fournisseur vous plafonne à 1 000 requêtes par minute et que votre application en nécessite 5 000, vous mettez les requêtes en file d'attente (ajoutant de la latence) ou provisionnez plusieurs clés API (ajoutant de la complexité). Et n'oubliez pas les coûts de sortie de données, les coûts de journalisation et le temps d'ingénierie passé à construire la logique de réessai, le comptage de tokens et la surveillance des coûts. Le prix affiché par token n'est que le début de l'équation de coût réelle.