A nivel mecánico, una llamada a una API de IA es simplemente una solicitud HTTP — casi siempre un POST a un endpoint HTTPS con un cuerpo JSON. Envías tu prompt, instrucciones del sistema, parámetros del modelo como temperature y max tokens, y el proveedor devuelve una respuesta JSON con la salida del modelo. La mayoría de los proveedores hoy siguen el patrón que estableció OpenAI: un endpoint estilo /v1/chat/completions que acepta un array de mensajes con pares de rol/contenido. La API Messages de Anthropic tiene una estructura ligeramente diferente pero sigue la misma filosofía. Lo clave es entender que estas son llamadas sin estado — el servidor no recuerda tu solicitud anterior a menos que reenvíes explícitamente el historial de la conversación cada vez.
El streaming es donde las cosas se ponen más interesantes. En vez de esperar a que el modelo termine de generar toda su respuesta (lo que puede tomar de 10 a 30 segundos para una respuesta larga), la mayoría de las API de IA soportan Server-Sent Events (SSE). El servidor envía la respuesta token por token conforme se genera, para que tu usuario empiece a ver texto casi de inmediato. Por eso ChatGPT y Claude se sienten responsivos aunque la respuesta completa tarde — estás viendo al modelo "pensar" en tiempo real. Implementar streaming correctamente implica manejar fragmentos JSON parciales, gestionar timeouts de conexión y recuperarse elegantemente cuando el stream se corta a mitad de respuesta.
La autenticación varía entre proveedores pero generalmente cae en uno de dos patrones: una API key simple pasada como Bearer token en el header Authorization, o un flujo OAuth más complejo para configuraciones empresariales. Anthropic usa un header x-api-key, OpenAI usa Authorization: Bearer sk-..., y Google Cloud requiere credenciales de cuenta de servicio. Si trabajas con múltiples proveedores — como la mayoría de los sistemas en producción — rápidamente descubres que "compatible con OpenAI" es un espectro. Proveedores como Together AI, Groq y Mistral mayormente siguen el esquema de OpenAI, pero los casos límite en manejo de errores, soporte de parámetros y formato de respuestas son donde realmente vive el trabajo de integración.
Una idea errónea que vale la pena aclarar: las API REST no son la única opción, aunque dominen. Algunos proveedores ofrecen endpoints gRPC para comunicación con menor overhead, y las API basadas en WebSocket son cada vez más comunes para casos de uso de voz y streaming en tiempo real. La API de voz de ElevenLabs, por ejemplo, usa WebSockets para streaming bidireccional de audio. Pero para inferencia de LLM de texto-a-texto, REST con streaming SSE sigue siendo el estándar, y es poco probable que eso cambie pronto — el overhead de HTTP es insignificante comparado con el tiempo que el modelo pasa generando tokens.