No nível mecânico, uma chamada de API de IA é apenas uma requisição HTTP — quase sempre um POST para um endpoint HTTPS com um corpo JSON. Você envia seu prompt, instruções de sistema, parâmetros do modelo como temperature e max tokens, e o provedor retorna uma resposta JSON contendo a saída do modelo. A maioria dos provedores hoje segue o padrão que a OpenAI estabeleceu: um endpoint no estilo /v1/chat/completions que aceita um array de mensagens com pares role/content. A API Messages da Anthropic tem uma estrutura ligeiramente diferente, mas segue a mesma filosofia. O ponto fundamental é que essas são chamadas stateless — o servidor não lembra da sua requisição anterior a menos que você reenvie explicitamente o histórico da conversa a cada vez.
O streaming é onde as coisas ficam mais interessantes. Em vez de esperar o modelo terminar de gerar toda a resposta (o que pode levar de 10 a 30 segundos para uma resposta longa), a maioria das APIs de IA suporta Server-Sent Events (SSE). O servidor envia a resposta token por token conforme é gerada, para que o usuário comece a ver o texto quase imediatamente. É por isso que o ChatGPT e o Claude parecem responsivos mesmo quando a resposta completa demora — você está assistindo o modelo "pensar" em tempo real. Implementar streaming corretamente significa lidar com fragmentos JSON parciais, gerenciar timeouts de conexão e se recuperar graciosamente quando o stream cai no meio da resposta.
A autenticação varia entre provedores, mas geralmente segue um de dois padrões: uma API key simples passada como Bearer token no header Authorization, ou um fluxo OAuth mais complexo para configurações empresariais. A Anthropic usa um header x-api-key, a OpenAI usa Authorization: Bearer sk-..., e o Google Cloud requer credenciais de conta de serviço. Se você está trabalhando com múltiplos provedores — o que a maioria dos sistemas em produção faz — você rapidamente descobre que "compatível com OpenAI" é um espectro. Provedores como Together AI, Groq e Mistral seguem majoritariamente o schema da OpenAI, mas os casos extremos no tratamento de erros, suporte a parâmetros e formatação de respostas são onde o trabalho real de integração acontece.
Um equívoco que vale a pena esclarecer: APIs REST não são a única opção, mesmo que dominem. Alguns provedores oferecem endpoints gRPC para comunicação com menos overhead, e APIs baseadas em WebSocket estão se tornando mais comuns para casos de uso em tempo real de voz e streaming. A API de voz da ElevenLabs, por exemplo, usa WebSockets para streaming bidirecional de áudio. Mas para inferência de LLM texto-entra-texto-sai, REST com streaming SSE continua sendo o padrão, e isso provavelmente não vai mudar tão cedo — o overhead do HTTP é insignificante comparado ao tempo que o modelo gasta gerando tokens.