Zubnet AIAprenderWiki › Streaming
Usar AI

Streaming

Também conhecido como: Server-Sent Events
Enviar a saída token por token conforme é gerada, via SSE sobre HTTP. O motivo pelo qual texto aparece palavra por palavra em interfaces de chat.

Por que isso importa

10 segundos de texto aparecendo aos poucos parece normal; 10 segundos de tela em branco parece quebrado. Além disso, permite que usuários interrompam cedo.

Em profundidade

Parâmetro stream: true. TTFT (Time to First Token) é a métrica chave. Streaming afeta a arquitetura: não é possível pós-processar a resposta completa antes de mostrá-la.

Como Funciona

Com streaming habilitado, o servidor envia cada token (ou grupo de tokens) como um evento SSE (Server-Sent Events) pela conexão HTTP aberta. O cliente renderiza em tempo real. A conexão permanece aberta até o modelo terminar ou o cliente desconectar. Na API, cada chunk geralmente contém um delta de texto e metadados como uso de tokens.

Implicações de Arquitetura

Streaming muda como você constrói aplicações. Não dá para validar JSON completo antes de enviar, não dá para filtrar a resposta inteira por conteúdo sensível antes de exibir, e tratamento de erros fica mais complexo. Muitas aplicações usam streaming para UX mas também fazem uma chamada não-streaming em paralelo para validação.

Conceitos relacionados

← Todos os termos
← StepFun Suno →