SFT de persona: texto em primeira pessoa supera demos de chat em Qwen3-4B LoRA, Zubnet AI Notícias

Ferran Alia publicou na quarta-feira no Towards Data Science uma comparação SFT controlada, testando três formatos de dados para ensinar uma persona a um modelo de linguagem — e a opção contraintuitiva venceu. O setup é a parte que a maioria dos posts de praticantes pula: Qwen3-4B-Instruct como modelo base, LoRA (r=16, alpha=32, projeções de atenção e MLP), 3 epochs com schedule cosseno e 5% de warmup, 500 exemplos de treino por estratégia gerados pelo Claude, todos os hiperparâmetros mantidos constantes para que a única variável fosse o formato dos dados. As três estratégias mapeiam para três teorias diferentes sobre onde a persona vive nos pesos: demonstrações chat (imitação comportamental), declarações introspectivas em primeira pessoa ("Eu sou C-3PO, prefiro calcular as odds antes de me comprometer"), e synthetic document fine-tuning (descrições em terceira pessoa estilo Wikipedia, a técnica da pesquisa de inserção de crenças de 2025 da Anthropic). O código está no GitHub.

O resultado é a descoberta principal a ser levada: as declarações em primeira pessoa superaram as demonstrações em generalização, medida via uma matriz de perplexidade 4×3 (baseline mais três fine-tunes, avaliados em amostras dos três formatos) mais trait-tagging em 30 respostas a prompts fixos verificando comportamentos C-3PO (chamar pessoas de "Sir", citar odds, expressar ansiedade, etiqueta formal). O modelo treinado em diálogo é o melhor a produzir diálogo estilo C-3PO; o modelo treinado em primeira pessoa produz mais C-3PO em todos os formatos, incluindo diálogo. Os documentos sintéticos fazem algo diferente — ensinam os fatos da persona (seis milhões de formas de comunicação, funções de droide protocolar) melhor que o senso vivido de ser essa persona. A leitura de Alia é que demonstrações atualizam padrões comportamentais, texto em primeira pessoa atualiza a auto-representação, e SDF atualiza o conhecimento de mundo sobre uma entidade nomeada — e a auto-representação generaliza mais longe que o comportamento. O hedge honesto na peça também é importante: um system prompt bem ajustado ainda é muito competitivo contra qualquer um desses fine-tunes, e o experimento não afirma que SFT é necessariamente a ferramenta certa para muitas tarefas de persona.

A leitura ecossistêmica aqui conecta dois fios que não tinham sido amarrados publicamente antes. O trabalho SDF de 2025 da Anthropic mostrou que se pode inserir fatos falsos-mas-plausíveis num modelo treinando em texto estilo documento enquadrado como factual. A descoberta de Alia é o análogo SFT: se você quer que o modelo seja a entidade, escreva em primeira pessoa; se quer que ele saiba fatos sobre a entidade, escreva em terceira pessoa. A implicação para todos que constroem assistentes de suporte ao cliente, copilotos branded, personagens de role-play, ou agentes de domínio é que o padrão intuitivo (gravar conversas humano-IA, fazer fine-tune nelas) está deixando generalização na mesa. Para designers de agente em particular — incluindo as stacks locais estilo Hermes enviando esta semana — a questão de formato de dados SFT é exatamente a que determina se seu agente tem caráter consistente ou deriva sob shift de distribuição.

Para builders fazendo fine-tune para persona ou personagem: gere três tipos de dados sintéticos (introspecção em primeira pessoa, demonstrações, documentos SDF), treine ablations em orçamentos de tokens iguais, e faça benchmark em prompts fora-de-distribuição antes de implantar. O setup LoRA de 500 exemplos que Alia usou é barato o bastante para um fim de semana single-GPU, e o código é reutilizável. A caveat carregada é que este é um resultado de um único autor, único modelo base (Qwen3-4B) numa persona fictícia — o trabalho de inserção de crenças da Anthropic sugere que o padrão provavelmente generaliza, mas espere ver o experimento re-rodado em Llama 4 e em personas corporativas reais antes de tratar "primeira pessoa supera demos" como assentado. A leitura mais profunda é metodológica: estudos de ablation sobre formato de dados SFT ainda são raros na literatura de praticantes, e qualquer time fazendo fine-tuning sério deveria estar rodando sua própria versão dessa comparação de 3 vias em vez de copiar defaults do último template que viu.

SFT de persona: texto em primeira pessoa supera demos de chat em Qwen3-4B LoRA

Mais notícias