API: Definição e significado — Wiki de IA

Uma forma estruturada de um software se comunicar com outro software. Em IA, isso geralmente significa enviar uma requisição (seu prompt) ao servidor de um provedor e receber uma resposta (a saída do modelo) de volta. APIs REST sobre HTTPS são o padrão.

Por que isso importa

Todo provedor de IA — Anthropic, Google, Mistral — expõe seus modelos através de APIs. Se você está construindo qualquer coisa com IA além de uma janela de chat, você está usando uma API.

Em profundidade

No nível mecânico, uma chamada de API de IA é apenas uma requisição HTTP — quase sempre um POST para um endpoint HTTPS com um corpo JSON. Você envia seu prompt, instruções de sistema, parâmetros do modelo como temperature e max tokens, e o provedor retorna uma resposta JSON contendo a saída do modelo. A maioria dos provedores hoje segue o padrão que a OpenAI estabeleceu: um endpoint no estilo /v1/chat/completions que aceita um array de mensagens com pares role/content. A API Messages da Anthropic tem uma estrutura ligeiramente diferente, mas segue a mesma filosofia. O ponto fundamental é que essas são chamadas stateless — o servidor não lembra da sua requisição anterior a menos que você reenvie explicitamente o histórico da conversa a cada vez.

Streaming e Entrega em Tempo Real

O streaming é onde as coisas ficam mais interessantes. Em vez de esperar o modelo terminar de gerar toda a resposta (o que pode levar de 10 a 30 segundos para uma resposta longa), a maioria das APIs de IA suporta Server-Sent Events (SSE). O servidor envia a resposta token por token conforme é gerada, para que o usuário comece a ver o texto quase imediatamente. É por isso que o ChatGPT e o Claude parecem responsivos mesmo quando a resposta completa demora — você está assistindo o modelo "pensar" em tempo real. Implementar streaming corretamente significa lidar com fragmentos JSON parciais, gerenciar timeouts de conexão e se recuperar graciosamente quando o stream cai no meio da resposta.

Autenticação entre Provedores

A autenticação varia entre provedores, mas geralmente segue um de dois padrões: uma API key simples passada como Bearer token no header Authorization, ou um fluxo OAuth mais complexo para configurações empresariais. A Anthropic usa um header x-api-key, a OpenAI usa Authorization: Bearer sk-..., e o Google Cloud requer credenciais de conta de serviço. Se você está trabalhando com múltiplos provedores — o que a maioria dos sistemas em produção faz — você rapidamente descobre que "compatível com OpenAI" é um espectro. Provedores como Together AI, Groq e Mistral seguem majoritariamente o schema da OpenAI, mas os casos extremos no tratamento de erros, suporte a parâmetros e formatação de respostas são onde o trabalho real de integração acontece.

Além do REST

Um equívoco que vale a pena esclarecer: APIs REST não são a única opção, mesmo que dominem. Alguns provedores oferecem endpoints gRPC para comunicação com menos overhead, e APIs baseadas em WebSocket estão se tornando mais comuns para casos de uso em tempo real de voz e streaming. A API de voz da ElevenLabs, por exemplo, usa WebSockets para streaming bidirecional de áudio. Mas para inferência de LLM texto-entra-texto-sai, REST com streaming SSE continua sendo o padrão, e isso provavelmente não vai mudar tão cedo — o overhead do HTTP é insignificante comparado ao tempo que o modelo gasta gerando tokens.

API

Por que isso importa

Em profundidade

Streaming e Entrega em Tempo Real

Autenticação entre Provedores

Além do REST

Conceitos relacionados