Ferran Alia publicó el miércoles en Towards Data Science una comparación SFT controlada, probando tres formatos de datos para enseñarle a un modelo de lenguaje una persona — y la opción contraintuitiva ganó. El setup es la parte que la mayoría de los posts de practicantes saltan: Qwen3-4B-Instruct como modelo base, LoRA (r=16, alpha=32, proyecciones de atención y MLP), 3 epochs con schedule coseno y 5% de warmup, 500 ejemplos de entrenamiento por estrategia generados por Claude, todos los hiperparámetros mantenidos constantes para que la única variable fuera el formato de datos. Las tres estrategias mapean a tres teorías diferentes sobre dónde vive la persona en los pesos: demostraciones chat (imitación conductual), declaraciones introspectivas en primera persona ("Yo soy C-3PO, prefiero calcular las odds antes de comprometerme"), y synthetic document fine-tuning (descripciones tercera persona estilo Wikipedia, la técnica de la investigación de inserción de creencias 2025 de Anthropic). El código está en GitHub.
El resultado es el hallazgo titular que vale la pena tomar: las declaraciones en primera persona superaron a las demostraciones en generalización, medida vía una matriz de perplexity 4×3 (baseline más tres fine-tunes, evaluados en muestras de los tres formatos) más trait-tagging en 30 respuestas a prompts fijos verificando conductas C-3PO (llamar a la gente "Sir", citar odds, expresar ansiedad, etiqueta formal). El modelo entrenado en diálogo es mejor produciendo diálogo estilo C-3PO; el modelo entrenado en primera persona produce más C-3PO across todos los formatos, incluido el diálogo. Los documentos sintéticos hacen algo distinto — enseñan los hechos de la persona (seis millones de formas de comunicación, funciones de droide protocolar) mejor que el sentido vivido de ser esa persona. La lectura de Alia es que las demostraciones actualizan patrones conductuales, el texto en primera persona actualiza la auto-representación, y SDF actualiza el conocimiento del mundo sobre una entidad nombrada — y la auto-representación generaliza más lejos que la conducta. El hedge honesto en la pieza también es importante: un system prompt bien afinado sigue siendo muy competitivo contra cualquiera de estos fine-tunes, y el experimento no afirma que SFT sea necesariamente la herramienta correcta para muchas tareas de persona.
La lectura ecosistémica acá conecta dos hilos que no habían sido vinculados públicamente antes. El trabajo SDF 2025 de Anthropic mostró que se pueden insertar hechos falsos-pero-plausibles en un modelo entrenando en texto estilo documento enmarcado como factual. El hallazgo de Alia es el análogo SFT: si quieres que el modelo sea la entidad, escribe en primera persona; si quieres que conozca hechos sobre la entidad, escribe en tercera persona. La implicación para todos los que construyen asistentes de soporte al cliente, copilotos branded, personajes role-play, o agentes de dominio, es que el default intuitivo (grabar conversaciones humano-IA, hacer fine-tune sobre ellas) está dejando generalización sobre la mesa. Para diseñadores de agentes en particular — incluidos los stacks locales estilo Hermes que están enviando esta semana — la cuestión del formato de datos SFT es exactamente la que determina si tu agente tiene carácter consistente o deriva bajo shift de distribución.
Para builders haciendo fine-tune para persona o personaje: genera tres tipos de datos sintéticos (introspección en primera persona, demostraciones, documentos SDF), entrena ablations sobre presupuestos de tokens iguales, y haz benchmark en prompts fuera-de-distribución antes de desplegar. El setup LoRA de 500 ejemplos que usó Alia es lo suficientemente barato para un fin de semana single-GPU, y el código es reutilizable. El caveat cargante es que esto es un resultado de un solo autor, un solo modelo base (Qwen3-4B) sobre una persona ficticia — el trabajo de inserción de creencias de Anthropic sugiere que el patrón probablemente generaliza, pero espera ver el experimento re-corrido en Llama 4 y en personas corporativas reales antes de tratar "primera persona supera a las demos" como establecido. La toma más profunda es metodológica: los estudios de ablation sobre formato de datos SFT siguen siendo raros en la literatura de practicantes, y cualquier equipo haciendo fine-tuning serio debería estar corriendo su propia versión de esta comparación de 3 vías en lugar de copiar defaults del último template que vieron.
