Envoyer la sortie token par token au fur et à mesure de la génération, via SSE sur HTTP. C'est pourquoi le texte apparaît mot par mot dans les interfaces de chat.
Pourquoi c'est important
10 secondes de texte qui se construit, ça passe ; 10 secondes d'écran vide, ça casse l'expérience. Permet aussi aux utilisateurs d'interrompre tôt.
En profondeur
Paramètre stream: true. Le TTFT (Time to First Token) est la métrique clé. Le streaming affecte l'architecture : on ne peut pas post-traiter la réponse complète avant de la montrer.