Se activa con el parámetro stream: true en la llamada a la API. En lugar de esperar a que el modelo genere toda la respuesta, el servidor envía cada token (o pequeño grupo de tokens) como un evento SSE conforme se produce.
TTFT (Time to First Token) — el tiempo hasta el primer token — es la métrica más importante para la experiencia de streaming. Es el tiempo que pasa desde que envías tu request hasta que recibes el primer token de respuesta. Incluye el tiempo de red más la fase de prefill (procesar tu prompt). Contextos más largos significan TTFT más alto.
El streaming afecta la arquitectura de tu aplicación: no puedes post-procesar la respuesta completa antes de mostrarla. Si necesitas validar la salida, parsear JSON o aplicar filtros, tienes que hacerlo de forma incremental o buffer hasta que termine. Esto crea tensión entre la experiencia de usuario (ver texto aparecer inmediatamente) y la fiabilidad (verificar antes de mostrar).