El paper de GPT-3 (Brown et al., 2020) demostró que los modelos grandes pueden aprender nuevas tareas solo con unos pocos ejemplos en el prompt, sin actualizar ningún peso. Esto fue sorprendente porque los modelos más pequeños no podían hacerlo — es una capacidad emergente de la escala.
El número óptimo depende de la complejidad de la tarea. Para clasificación simple, 2–3 ejemplos suelen bastar. Para tareas con formato complejo o lógica sutil, 5–10 marcan una diferencia real. Más allá de eso, los rendimientos decrecen, y gastas contexto valioso que podrías usar para otras cosas.
No todos los ejemplos son iguales. Los ejemplos diversos (que cubren diferentes casos) funcionan mejor que los redundantes. Los ejemplos similares al caso objetivo funcionan mejor que los distantes. Y el orden importa: los modelos tienen sesgo de recencia, por lo que los últimos ejemplos pesan más. Para máximo rendimiento, selecciona ejemplos dinámicamente basándote en la consulta del usuario.