Zubnet AIAprenderWiki › Rendimiento
Infraestructura

Rendimiento

Tokens Por Segundo, TPS, Throughput
El número total de tokens que un sistema puede generar por segundo a través de todas las solicitudes concurrentes. Distinto de la latencia (qué tan rápido se sirve una sola solicitud). Un sistema con alto rendimiento sirve a muchos usuarios simultáneamente. Un sistema con baja latencia sirve a cada usuario individual rápidamente. Los dos frecuentemente se compensan entre sí.

Por qué importa

Cuando construyes productos de IA, el rendimiento determina tus costos de servicio y capacidad. Un sistema que genera 100 tokens/segundo por usuario pero solo puede servir a un usuario a la vez tiene bajo rendimiento aunque la latencia individual sea excelente. El rendimiento es lo que optimizas cuando estás pagando facturas de GPU para miles de usuarios concurrentes.

En profundidad

La distinción importa más en producción. La latencia (particularmente TTFT — tiempo hasta el primer token) determina la experiencia del usuario para una sola solicitud. El rendimiento determina cuántos usuarios puedes servir con un número dado de GPUs. Técnicas que mejoran uno frecuentemente perjudican al otro: agrupar muchas solicitudes mejora el rendimiento (la GPU se mantiene ocupada) pero aumenta la latencia (cada solicitud espera por el batch).

Batching Continuo

El avance en el servicio de LLMs fue el batching continuo (también llamado batching en vuelo). En lugar de esperar a que todas las solicitudes en un batch terminen antes de iniciar nuevas, el batching continuo añade nuevas solicitudes al batch conforme se abren espacios. Esto mantiene alta la utilización de la GPU y evita que solicitudes cortas sean retenidas por las largas. vLLM, TGI y TensorRT-LLM implementan esto.

La Economía

A escala, el rendimiento determina directamente el costo por token. Un servidor generando 10,000 tokens/segundo a $10/hora cuesta $0.001 por 1,000 tokens. El mismo servidor a 1,000 tokens/segundo cuesta $0.01. Esta diferencia de 10x es por qué la optimización de inferencia (cuantización, decodificación especulativa, mejor batching) importa tanto — no solo es más rápido, es más barato. Los proveedores que optimizan el rendimiento pueden ofrecer precios más bajos o mayores márgenes.

Conceptos relacionados

← Todos los términos
← Reka Resemble AI →
ESC