O pipeline de amostragem: (1) o modelo produz logits para todos os tokens do vocabulário, (2) escalonamento por temperatura divide logits por T, (3) filtragem top-k mantém apenas os k logits mais altos (definindo o resto como −∞), (4) filtragem top-p mantém o menor conjunto de tokens cuja probabilidade acumulada excede p, (5) softmax converte logits filtrados em probabilidades, (6) um token é amostrado aleatoriamente desta distribuição. Passos 3 e 4 são opcionais e podem ser combinados.
Para tarefas factuais/código: temperatura 0 (ou muito baixa), sem top-p/top-k. Você quer os tokens mais prováveis. Para escrita criativa: temperatura 0.7–1.0, top-p 0.9–0.95. Você quer diversidade sem incoerência. Para brainstorming: temperatura 1.0+, top-p mais amplo. Você quer conexões surpreendentes e inesperadas. O insight-chave: não existe uma configuração universalmente melhor. Tarefas diferentes precisam de estratégias de amostragem diferentes, e os parâmetros ideais também variam por modelo.
Estratégias avançadas incluem: busca em feixe (manter múltiplas sequências candidatas, escolher a melhor no geral — bom para tradução, menos útil para geração aberta), decodificação contrastiva (impulsionar tokens onde um modelo grande supera um modelo pequeno) e amostragem min-p (limiar dinâmico que mantém tokens com probabilidade acima de uma fração da probabilidade do token top). Essas técnicas abordam modos de falha específicos da amostragem simples, como loops de repetição ou saídas degeneradas.