O artigo do GPT-3 (Brown et al., 2020) demonstrou isso. O número ótimo depende da complexidade da tarefa. A seleção de exemplos importa: diversos, similares ao alvo, e a ordem importa (viés de recência).
Modelos grandes desenvolvem a capacidade de reconhecer padrões em contexto e generalizá-los sem atualizar pesos. Quando você mostra 3 exemplos de tradução inglês→francês e depois dá uma frase em inglês, o modelo infere a tarefa e aplica o padrão. Isso emerge em modelos acima de ~1B parâmetros e melhora com a escala.
Escolha exemplos representativos do caso real. Exemplos ruins confundem mais do que ajudam. 3–5 exemplos geralmente bastam — mais que isso consome contexto sem ganho proporcional. Se a tarefa é complexa, combine few-shot com instruções explícitas. Se o modelo já funciona bem zero-shot, poupar exemplos é poupar tokens.