Modelo de execução determinística elimina overhead de agendamento. Trade-offs: apenas inferência, melhor para padrões Transformer padrão. Custo por token ainda evoluindo.
GPUs são processadores de propósito geral otimizados para paralelismo massivo. LPUs (Language Processing Units) da Groq são especializadas para o padrão específico de inferência de LLMs: operações matriciais sequenciais com padrões de acesso à memória previsíveis. Execução determinística significa sem overhead de agendamento — cada ciclo de clock é produtivo.
Groq demonstrou que inferência a 500+ tokens/segundo é possível, mudando as expectativas do mercado. Respostas em tempo real abrem casos de uso (conversação por voz, jogos, tempo real) que eram impraticáveis com latências tradicionais de GPU. O trade-off é que LPUs são apenas para inferência — não treinam modelos.