Zubnet AIApprendreWiki › API
Infrastructure

API

Aussi appelé : Interface de programmation d'application
Un moyen structuré pour les logiciels de communiquer entre eux. En IA, cela signifie généralement envoyer une requête (votre prompt) au serveur d'un fournisseur et recevoir une réponse (la sortie du modèle) en retour. Les API REST via HTTPS sont la norme.

Pourquoi c’est important

Chaque fournisseur d'IA — Anthropic, Google, Mistral — expose ses modèles via des API. Si vous construisez quoi que ce soit avec l'IA au-delà d'une fenêtre de chat, vous utilisez une API.

En profondeur

Au niveau technique, un appel API d'IA n'est qu'une requête HTTP — presque toujours un POST vers un endpoint HTTPS avec un corps JSON. Vous envoyez votre prompt, vos instructions système, les paramètres du modèle comme la température et le nombre maximal de tokens, et le fournisseur renvoie une réponse JSON contenant la sortie du modèle. La plupart des fournisseurs suivent aujourd'hui le patron établi par OpenAI : un endpoint de type /v1/chat/completions qui accepte un tableau de messages avec des paires rôle/contenu. L'API Messages d'Anthropic a une structure légèrement différente, mais suit la même philosophie. Le point essentiel à comprendre est que ces appels sont sans état — le serveur ne se souvient pas de votre requête précédente à moins que vous ne renvoyiez explicitement l'historique de conversation à chaque fois.

Streaming et livraison en temps réel

Le streaming est l'aspect le plus intéressant. Au lieu d'attendre que le modèle termine de générer sa réponse complète (ce qui peut prendre 10 à 30 secondes pour une longue réponse), la plupart des API d'IA prennent en charge les Server-Sent Events (SSE). Le serveur envoie la réponse token par token au fur et à mesure de la génération, de sorte que l'utilisateur commence à voir le texte presque immédiatement. C'est pourquoi ChatGPT et Claude semblent réactifs même si la réponse complète prend du temps — vous regardez le modèle « réfléchir » en temps réel. Implémenter le streaming correctement implique de gérer des fragments JSON partiels, de gérer les délais d'expiration de connexion et de récupérer gracieusement lorsque le flux s'interrompt en cours de réponse.

L'authentification selon les fournisseurs

L'authentification varie selon les fournisseurs, mais se divise généralement en deux approches : une simple clé API passée comme token Bearer dans l'en-tête Authorization, ou un flux OAuth plus complexe pour les configurations d'entreprise. Anthropic utilise un en-tête x-api-key, OpenAI utilise Authorization: Bearer sk-..., et Google Cloud nécessite des identifiants de compte de service. Si vous travaillez avec plusieurs fournisseurs — ce que font la plupart des systèmes en production — vous découvrez rapidement que « compatible OpenAI » est un spectre. Des fournisseurs comme Together AI, Groq et Mistral suivent globalement le schéma d'OpenAI, mais les cas limites dans la gestion des erreurs, le support des paramètres et le formatage des réponses sont là où le vrai travail d'intégration se situe.

Au-delà de REST

Une idée reçue mérite d'être corrigée : les API REST ne sont pas les seules en jeu, même si elles dominent. Certains fournisseurs offrent des endpoints gRPC pour une communication à moindre surcharge, et les API basées sur WebSocket deviennent plus courantes pour les cas d'utilisation vocale en temps réel et le streaming. L'API vocale d'ElevenLabs, par exemple, utilise des WebSockets pour le streaming audio bidirectionnel. Mais pour l'inférence LLM texte-vers-texte, REST avec streaming SSE reste la norme, et cela ne changera probablement pas de sitôt — la surcharge de HTTP est négligeable comparée au temps que le modèle passe à générer des tokens.

Concepts connexes

← Tous les termes
← Sécurité de l'IA ASI →
ESC