A unidade padrão de preço para large language models é o token — aproximadamente três quartos de uma palavra em inglês. Quando você envia uma mensagem para uma API como a da OpenAI ou da Anthropic, você é cobrado separadamente por tokens de entrada (o que envia) e tokens de saída (o que o modelo gera). Tokens de saída custam mais porque requerem computação sequencial — o modelo precisa gerá-los um por vez, o que é mais lento e consome mais GPU do que processar tokens de entrada em paralelo. No início de 2026, preços para modelos de fronteira variam de cerca de US$ 2–15 por milhão de tokens de entrada e US$ 8–60 por milhão de tokens de saída, dependendo do provedor e nível do modelo. Pode parecer barato até você perceber que uma aplicação movimentada servindo 100.000 usuários poderia facilmente consumir bilhões de tokens por mês.
Os preços de IA caíram mais rápido do que quase qualquer um previa. O GPT-3.5 da OpenAI foi lançado no início de 2023 a US$ 2 por milhão de tokens; em meados de 2024, modelos de qualidade equivalente estavam disponíveis por US$ 0,10–0,25 por milhão de tokens de provedores como DeepSeek, Mistral e Google (via Gemini Flash). Essa redução de preço de aproximadamente 10–50x em 18 meses veio da convergência de três forças: melhorias de hardware (H100s são ~3x mais eficientes que A100s para inferência), otimizações de software (continuous batching, speculative decoding e quantização) e pressão competitiva (os modelos open-weight da DeepSeek forçaram provedores comerciais a cortar margens). O padrão continua — cada nova geração de chips de inferência e frameworks de serving empurra os custos para baixo. Para desenvolvedores, isso significa que o modelo que era caro demais para seu caso de uso seis meses atrás pode ser acessível hoje.
Nem tudo se encaixa perfeitamente no preço por token. Modelos de geração de imagem como DALL-E e Stable Diffusion cobram por imagem (tipicamente US$ 0,02–0,08 por imagem dependendo da resolução). Modelos de vídeo cobram por segundo de vídeo gerado — o Gen-3 do Runway custa cerca de US$ 0,05 por segundo, o que soma rápido para clipes mais longos. Modelos de fala cobram por caractere ou por minuto de áudio. Modelos de embedding cobram por token mas a taxas muito mais baixas que modelos generativos (frequentemente US$ 0,01–0,10 por milhão de tokens). Alguns provedores oferecem modelos de assinatura: ChatGPT Plus a US$ 20/mês, Claude Pro a US$ 20/mês, dando aos usuários acesso ilimitado (dentro de limites de taxa) aos modelos mais recentes. Para clientes empresariais, descontos por compromisso de uso — concordar em gastar US$ 100K+ por ano em troca de 20–40% de desconto sobre o preço de tabela — são padrão. E vários provedores oferecem planos gratuitos generosos: a API Gemini do Google, La Plateforme da Mistral e a Groq permitem que desenvolvedores experimentem gratuitamente até certos limites de uso.
A maior alavanca para reduzir custos de IA não é negociar com seu provedor — é escolher o modelo certo para a tarefa. Um modelo de fronteira como Claude Opus ou GPT-4o é exagero para classificação, extração ou sumarização simples; um modelo menor como Claude Haiku, Gemini Flash ou Mistral Small pode lidar com essas tarefas a 10–50x menos custo com precisão comparável. Engenharia de prompt também importa: um system prompt de 2.000 tokens custa esses tokens em cada chamada de API, então enxugá-lo economiza dinheiro em escala. Caching é outra ferramenta poderosa — o prompt caching da Anthropic e o caching automático da OpenAI permitem pagar taxas reduzidas para contexto repetido, o que é especialmente valioso para aplicações que enviam o mesmo system prompt ou contexto de documento em cada requisição. Por fim, agrupar requisições não urgentes (usando a Batch API da OpenAI ou ofertas similares) tipicamente dá 50% de desconto em troca de aceitar maior latência.
Preço por token é o custo visível, mas não é a foto completa. O uso da janela de contexto importa enormemente: encher uma janela de contexto de 128K tokens com documentos em cada chamada é tecnicamente possível mas financeiramente doloroso. Modelos de raciocínio como o1 e o3 da OpenAI geram tokens internos de "pensamento" que você paga mesmo sem nunca vê-los — uma única consulta complexa pode consumir mais de 10.000 tokens de pensamento além da resposta visível. Limites de taxa impõem um custo oculto também: se seu provedor limita você a 1.000 requisições por minuto e sua aplicação precisa de 5.000, você ou enfileira requisições (adicionando latência) ou provisiona múltiplas API keys (adicionando complexidade). E não se esqueça dos custos de egress, custos de logging e o tempo de engenharia gasto construindo lógica de retry, contagem de tokens e monitoramento de custos. O preço anunciado por token é apenas o começo da equação real de custos.