Streaming: Definición y significado — Wiki de IA

Enviar la salida token por token conforme se genera, vía SSE (Server-Sent Events) sobre HTTP. Es la razón por la que el texto aparece palabra por palabra en las interfaces de chat.

Por qué importa

10 segundos de texto apareciendo se sienten bien; 10 segundos de pantalla en blanco se sienten rotos. Además permite a los usuarios interrumpir antes de tiempo.

En profundidad

Se activa con el parámetro stream: true en la llamada a la API. En lugar de esperar a que el modelo genere toda la respuesta, el servidor envía cada token (o pequeño grupo de tokens) como un evento SSE conforme se produce.

TTFT: la métrica clave

TTFT (Time to First Token) — el tiempo hasta el primer token — es la métrica más importante para la experiencia de streaming. Es el tiempo que pasa desde que envías tu request hasta que recibes el primer token de respuesta. Incluye el tiempo de red más la fase de prefill (procesar tu prompt). Contextos más largos significan TTFT más alto.

Implicaciones arquitectónicas

El streaming afecta la arquitectura de tu aplicación: no puedes post-procesar la respuesta completa antes de mostrarla. Si necesitas validar la salida, parsear JSON o aplicar filtros, tienes que hacerlo de forma incremental o buffer hasta que termine. Esto crea tensión entre la experiencia de usuario (ver texto aparecer inmediatamente) y la fiabilidad (verificar antes de mostrar).

Streaming

Por qué importa

En profundidad

TTFT: la métrica clave

Implicaciones arquitectónicas

Conceptos relacionados