Zubnet AIAprenderWiki › Latência
Infraestrutura

Latência

Também conhecido como: Time to First Token (TTFT)
O atraso entre enviar uma requisição e receber a primeira resposta. Em IA, isso é frequentemente medido como Time to First Token (TTFT) — quanto tempo até o modelo começar a transmitir sua resposta. Afetado pelo tamanho do modelo, carga do servidor, distância de rede e tamanho do prompt.

Por que isso importa

Usuários percebem qualquer coisa acima de ~2 segundos como lento. Baixa latência é o motivo pelo qual modelos menores frequentemente vencem em aplicações de tempo real mesmo quando modelos maiores são "mais inteligentes". É um diferencial-chave entre provedores.

Em profundidade

A latência em sistemas de IA se decompõe em vários componentes distintos, e entender cada um ajuda a diagnosticar o que realmente está lento. Primeiro há a latência de rede — o tempo de ida e volta para sua requisição chegar ao servidor do provedor e para os primeiros bytes da resposta voltarem. Isso tipicamente fica entre 20-100ms dependendo da distância geográfica até o datacenter. Depois há o tempo de fila — quanto tempo sua requisição espera antes que uma GPU esteja disponível para processá-la. Em horários de pico ou para modelos populares, isso pode variar de zero a vários segundos. Em seguida vem o tempo de prefill — o modelo processando todo o seu prompt de entrada. Para um prompt de 1.000 tokens em um modelo grande, isso pode levar 200-500ms. Finalmente, a decodificação começa e você recebe seu primeiro token. O total de todas essas etapas é seu TTFT (Time to First Token).

Tokens Por Segundo

Após o primeiro token chegar, existe uma segunda métrica de latência igualmente importante: a latência entre tokens, ou quão rapidamente os tokens subsequentes chegam em streaming. Isso é tipicamente medido em tokens por segundo. O GPT-4o pode transmitir a 80-100 tokens/segundo, enquanto o Claude transmite em velocidades semelhantes para a maioria das requisições. Para um chatbot, qualquer coisa acima de 30 tokens/segundo parece "instantâneo" para um leitor humano — mais rápido do que se consegue ler. Abaixo de 15 tokens/segundo, o streaming começa a parecer truncado. É por isso que provedores às vezes informam tanto o TTFT quanto tokens/segundo — eles medem gargalos diferentes da experiência do usuário. Uma resposta pode começar rapidamente mas transmitir lentamente, ou demorar um momento para iniciar mas depois voar.

A Armadilha do Tamanho do Prompt

O tamanho do prompt tem um impacto maior na latência do que a maioria dos desenvolvedores espera. A fase de prefill escala aproximadamente de forma quadrática com o tamanho da entrada para modelos transformer padrão (graças à autoatenção), então um prompt de 10.000 tokens não demora apenas 10x mais que um prompt de 1.000 tokens — pode demorar significativamente mais. É por isso que provedores como a Anthropic cobram de forma diferente por tokens de entrada versus saída e por que enfiar toda a sua base de código em uma janela de contexto tem consequências reais de performance. Técnicas como cache de prompt ajudam enormemente aqui: o recurso de prompt caching da Anthropic permite marcar uma porção do prompt como cacheável, então se você envia o mesmo system prompt a cada requisição (o que a maioria das aplicações faz), o prefill dessa porção é essencialmente gratuito após a primeira chamada.

O Que Observar

O erro mais comum que desenvolvedores cometem com latência é testar com prompts curtos durante o desenvolvimento e depois se surpreender com o desempenho em produção. Um prompt de teste de 50 tokens responde em 300ms; o prompt real de produção com mensagem de sistema, exemplos few-shot e histórico de conversação totalizando 4.000 tokens responde em 2 segundos. Outra pegadinha é o roteamento geográfico — se seu servidor está na Europa mas você está chamando um endpoint de API nos EUA, está adicionando 100-150ms de latência de rede a cada requisição. Alguns provedores oferecem endpoints regionais, e os serviços de proxy de inferência mais inteligentes roteiam seu tráfego automaticamente para o datacenter mais próximo. Para aplicações em tempo real como assistentes de voz, onde a latência total de ponta a ponta precisa ficar abaixo de 500ms, cada um desses componentes importa e você acaba otimizando todos simultaneamente.

Conceitos relacionados

← Todos os termos
← Modelo de linguagem grande Leonardo.ai →
ESC