Amostragem: Definição e significado — Wiki de IA

O processo de selecionar qual token gerar a seguir a partir da distribuição de probabilidade predita pelo modelo. Decodificação gulosa sempre escolhe o token mais provável. Amostragem aleatória escolhe proporcionalmente às probabilidades. Temperatura, top-p (nucleus) e top-k são controles que ajustam a aleatoriedade e diversidade da seleção. A estratégia de amostragem afeta dramaticamente a qualidade, criatividade e consistência da saída.

Por que isso importa

Parâmetros de amostragem são os controles mais acessíveis para ajustar o comportamento de LLMs. Temperatura 0 para geração determinística de código. Temperatura 0.7 para escrita criativa. Top-p 0.9 para um bom equilíbrio. Não são números mágicos — controlam diretamente quais tokens o modelo considera a cada passo. Entender amostragem ajuda você a calibrar saídas para seu caso de uso específico.

Em profundidade

O pipeline de amostragem: (1) o modelo produz logits para todos os tokens do vocabulário, (2) escalonamento por temperatura divide logits por T, (3) filtragem top-k mantém apenas os k logits mais altos (definindo o resto como −∞), (4) filtragem top-p mantém o menor conjunto de tokens cuja probabilidade acumulada excede p, (5) softmax converte logits filtrados em probabilidades, (6) um token é amostrado aleatoriamente desta distribuição. Passos 3 e 4 são opcionais e podem ser combinados.

Escolhendo Parâmetros

Para tarefas factuais/código: temperatura 0 (ou muito baixa), sem top-p/top-k. Você quer os tokens mais prováveis. Para escrita criativa: temperatura 0.7–1.0, top-p 0.9–0.95. Você quer diversidade sem incoerência. Para brainstorming: temperatura 1.0+, top-p mais amplo. Você quer conexões surpreendentes e inesperadas. O insight-chave: não existe uma configuração universalmente melhor. Tarefas diferentes precisam de estratégias de amostragem diferentes, e os parâmetros ideais também variam por modelo.

Além da Amostragem Simples

Estratégias avançadas incluem: busca em feixe (manter múltiplas sequências candidatas, escolher a melhor no geral — bom para tradução, menos útil para geração aberta), decodificação contrastiva (impulsionar tokens onde um modelo grande supera um modelo pequeno) e amostragem min-p (limiar dinâmico que mantém tokens com probabilidade acima de uma fração da probabilidade do token top). Essas técnicas abordam modos de falha específicos da amostragem simples, como loops de repetição ou saídas degeneradas.

Amostragem

Por que isso importa

Em profundidade

Escolhendo Parâmetros

Além da Amostragem Simples

Conceitos relacionados