Parâmetro stream: true. TTFT (Time to First Token) é a métrica chave. Streaming afeta a arquitetura: não é possível pós-processar a resposta completa antes de mostrá-la.
Com streaming habilitado, o servidor envia cada token (ou grupo de tokens) como um evento SSE (Server-Sent Events) pela conexão HTTP aberta. O cliente renderiza em tempo real. A conexão permanece aberta até o modelo terminar ou o cliente desconectar. Na API, cada chunk geralmente contém um delta de texto e metadados como uso de tokens.
Streaming muda como você constrói aplicações. Não dá para validar JSON completo antes de enviar, não dá para filtrar a resposta inteira por conteúdo sensível antes de exibir, e tratamento de erros fica mais complexo. Muitas aplicações usam streaming para UX mas também fazem uma chamada não-streaming em paralelo para validação.