Preços da IA: Definição e significado — Wiki de IA

Como provedores de IA cobram pelo acesso a seus modelos. O modelo dominante é preço por token — você paga pelo número de tokens que envia (input) e recebe (output), com tokens de saída tipicamente custando 3–5x mais. Outros modelos incluem preço por requisição, assinaturas mensais, descontos por compromisso de uso e planos gratuitos. A corrida para baixar preços tem sido acirrada, com custos caindo 10–100x em dois anos.

Por que isso importa

Preços determinam o que você pode construir. Uma aplicação que faz 10.000 chamadas de API por dia vive ou morre pelo custo por token. Entender modelos de preço, comparar provedores e otimizar uso de tokens é uma habilidade fundamental para quem constrói produtos impulsionados por IA.

Em profundidade

A unidade padrão de preço para large language models é o token — aproximadamente três quartos de uma palavra em inglês. Quando você envia uma mensagem para uma API como a da OpenAI ou da Anthropic, você é cobrado separadamente por tokens de entrada (o que envia) e tokens de saída (o que o modelo gera). Tokens de saída custam mais porque requerem computação sequencial — o modelo precisa gerá-los um por vez, o que é mais lento e consome mais GPU do que processar tokens de entrada em paralelo. No início de 2026, preços para modelos de fronteira variam de cerca de US$ 2–15 por milhão de tokens de entrada e US$ 8–60 por milhão de tokens de saída, dependendo do provedor e nível do modelo. Pode parecer barato até você perceber que uma aplicação movimentada servindo 100.000 usuários poderia facilmente consumir bilhões de tokens por mês.

O Colapso de Preços

Os preços de IA caíram mais rápido do que quase qualquer um previa. O GPT-3.5 da OpenAI foi lançado no início de 2023 a US$ 2 por milhão de tokens; em meados de 2024, modelos de qualidade equivalente estavam disponíveis por US$ 0,10–0,25 por milhão de tokens de provedores como DeepSeek, Mistral e Google (via Gemini Flash). Essa redução de preço de aproximadamente 10–50x em 18 meses veio da convergência de três forças: melhorias de hardware (H100s são ~3x mais eficientes que A100s para inferência), otimizações de software (continuous batching, speculative decoding e quantização) e pressão competitiva (os modelos open-weight da DeepSeek forçaram provedores comerciais a cortar margens). O padrão continua — cada nova geração de chips de inferência e frameworks de serving empurra os custos para baixo. Para desenvolvedores, isso significa que o modelo que era caro demais para seu caso de uso seis meses atrás pode ser acessível hoje.

Além do Preço por Token: Outros Modelos de Preço

Nem tudo se encaixa perfeitamente no preço por token. Modelos de geração de imagem como DALL-E e Stable Diffusion cobram por imagem (tipicamente US$ 0,02–0,08 por imagem dependendo da resolução). Modelos de vídeo cobram por segundo de vídeo gerado — o Gen-3 do Runway custa cerca de US$ 0,05 por segundo, o que soma rápido para clipes mais longos. Modelos de fala cobram por caractere ou por minuto de áudio. Modelos de embedding cobram por token mas a taxas muito mais baixas que modelos generativos (frequentemente US$ 0,01–0,10 por milhão de tokens). Alguns provedores oferecem modelos de assinatura: ChatGPT Plus a US$ 20/mês, Claude Pro a US$ 20/mês, dando aos usuários acesso ilimitado (dentro de limites de taxa) aos modelos mais recentes. Para clientes empresariais, descontos por compromisso de uso — concordar em gastar US$ 100K+ por ano em troca de 20–40% de desconto sobre o preço de tabela — são padrão. E vários provedores oferecem planos gratuitos generosos: a API Gemini do Google, La Plateforme da Mistral e a Groq permitem que desenvolvedores experimentem gratuitamente até certos limites de uso.

Otimizando Seus Custos

A maior alavanca para reduzir custos de IA não é negociar com seu provedor — é escolher o modelo certo para a tarefa. Um modelo de fronteira como Claude Opus ou GPT-4o é exagero para classificação, extração ou sumarização simples; um modelo menor como Claude Haiku, Gemini Flash ou Mistral Small pode lidar com essas tarefas a 10–50x menos custo com precisão comparável. Engenharia de prompt também importa: um system prompt de 2.000 tokens custa esses tokens em cada chamada de API, então enxugá-lo economiza dinheiro em escala. Caching é outra ferramenta poderosa — o prompt caching da Anthropic e o caching automático da OpenAI permitem pagar taxas reduzidas para contexto repetido, o que é especialmente valioso para aplicações que enviam o mesmo system prompt ou contexto de documento em cada requisição. Por fim, agrupar requisições não urgentes (usando a Batch API da OpenAI ou ofertas similares) tipicamente dá 50% de desconto em troca de aceitar maior latência.

Os Custos Ocultos

Preço por token é o custo visível, mas não é a foto completa. O uso da janela de contexto importa enormemente: encher uma janela de contexto de 128K tokens com documentos em cada chamada é tecnicamente possível mas financeiramente doloroso. Modelos de raciocínio como o1 e o3 da OpenAI geram tokens internos de "pensamento" que você paga mesmo sem nunca vê-los — uma única consulta complexa pode consumir mais de 10.000 tokens de pensamento além da resposta visível. Limites de taxa impõem um custo oculto também: se seu provedor limita você a 1.000 requisições por minuto e sua aplicação precisa de 5.000, você ou enfileira requisições (adicionando latência) ou provisiona múltiplas API keys (adicionando complexidade). E não se esqueça dos custos de egress, custos de logging e o tempo de engenharia gasto construindo lógica de retry, contagem de tokens e monitoramento de custos. O preço anunciado por token é apenas o começo da equação real de custos.

Preços da IA