Zubnet AIAprenderWiki › Latencia
Infraestructura

Latencia

También conocido como: Time to First Token (TTFT)
El retraso entre enviar una solicitud y obtener la primera respuesta. En IA, esto se mide frecuentemente como Time to First Token (TTFT) — cuanto tarda el modelo en empezar a transmitir su respuesta. Se ve afectado por el tamano del modelo, la carga del servidor, la distancia de red y la longitud del prompt.

Por qué importa

Los usuarios perciben cualquier cosa por encima de ~2 segundos como lento. La baja latencia es la razon por la que modelos mas pequenos a menudo ganan para aplicaciones en tiempo real, incluso cuando modelos mas grandes son "mas inteligentes". Es un diferenciador clave entre proveedores.

En profundidad

La latencia en sistemas de IA se descompone en varios componentes distintos, y entender cada uno te ayuda a diagnosticar que es lo que realmente esta lento. Primero esta la latencia de red — el tiempo de ida y vuelta para que tu solicitud llegue al servidor del proveedor y para que los primeros bytes de la respuesta regresen. Esto es tipicamente de 20 a 100 ms dependiendo de tu distancia geografica al centro de datos. Luego esta el tiempo en cola — cuanto espera tu solicitud antes de que haya una GPU disponible para procesarla. Durante horas pico o para modelos populares, esto puede ir de cero a varios segundos. Despues viene el tiempo de prefill — el modelo procesando todo tu prompt de entrada. Para un prompt de 1,000 tokens en un modelo grande, esto puede tomar de 200 a 500 ms. Finalmente, comienza la decodificacion y obtienes tu primer token. El total de todas estas etapas es tu TTFT (Time to First Token).

Tokens por segundo

Despues de que llega el primer token, hay una segunda metrica de latencia igual de importante: la latencia entre tokens, o que tan rapido llegan los tokens subsiguientes. Esto se mide tipicamente en tokens por segundo. GPT-4o puede transmitir a 80-100 tokens/segundo, mientras que Claude transmite a velocidades similares para la mayoria de las solicitudes. Para un chatbot, cualquier cosa por encima de unos 30 tokens/segundo se siente "instantanea" para un lector humano — mas rapido de lo que puedes leer. Por debajo de 15 tokens/segundo, la transmision empieza a sentirse entrecortada. Por eso los proveedores a veces citan tanto TTFT como tokens/segundo — estan midiendo cuellos de botella diferentes en la experiencia del usuario. Una respuesta podria comenzar rapido pero transmitirse lentamente, o tardar un momento en empezar pero luego volar.

La trampa de la longitud del prompt

La longitud del prompt tiene un impacto mayor en la latencia de lo que la mayoria de los desarrolladores esperan. La fase de prefill escala aproximadamente de forma cuadratica con la longitud de entrada para modelos transformer estandar (gracias a la auto-atencion), asi que un prompt de 10,000 tokens no solo toma 10 veces mas que uno de 1,000 tokens — puede tomar significativamente mas. Por eso proveedores como Anthropic cobran de manera diferente por tokens de entrada vs. de salida, y por eso meter todo tu codigo fuente en una ventana de contexto tiene consecuencias reales de rendimiento. Tecnicas como el prompt caching ayudan enormemente aqui: la funcion de prompt caching de Anthropic te permite marcar una porcion de tu prompt como cacheable, de modo que si estas enviando el mismo system prompt con cada solicitud (que es lo que hace la mayoria de las aplicaciones), el prefill para esa porcion es esencialmente gratis despues de la primera llamada.

Que vigilar

El error mas comun que cometen los desarrolladores con la latencia es probar con prompts cortos durante el desarrollo y luego sorprenderse con el rendimiento en produccion. Un prompt de prueba de 50 tokens responde en 300 ms; el prompt real de produccion con un mensaje de sistema, ejemplos few-shot e historial de conversacion sumando 4,000 tokens responde en 2 segundos. El otro error es el enrutamiento geografico — si tu servidor esta en Europa pero estas llamando a un endpoint de API en Estados Unidos, estas agregando 100-150 ms de latencia de red a cada solicitud. Algunos proveedores ofrecen endpoints regionales, y los servicios de proxy de inferencia mas inteligentes enrutan tu trafico automaticamente al centro de datos mas cercano. Para aplicaciones en tiempo real como asistentes de voz, donde la latencia total de extremo a extremo necesita mantenerse por debajo de 500 ms, cada uno de estos componentes importa y terminas optimizandolos todos simultaneamente.

Conceptos relacionados

← Todos los términos
← Modelo de lenguaje grande Leonardo.ai →
ESC