SFT de persona : le texte première personne bat les démos chat sur Qwen3-4B LoRA, Zubnet AI Nouvelles

Ferran Alia a publié mercredi sur Towards Data Science une comparaison SFT contrôlée, testant trois formats de données pour enseigner une persona à un modèle de langage — et l'option contre-intuitive a gagné. Le setup est la partie que la plupart des posts de praticiens sautent : Qwen3-4B-Instruct comme modèle de base, LoRA (r=16, alpha=32, projections attention et MLP), 3 epochs avec schedule cosine et 5 % de warmup, 500 exemples d'entraînement par stratégie générés par Claude, tous les hyperparamètres tenus constants pour que la seule variable soit le format des données. Les trois stratégies cartographient trois théories différentes sur où la persona vit dans les poids : démonstrations chat (imitation comportementale), énoncés introspectifs en première personne (« Je suis C-3PO, je préfère calculer les odds avant de m'engager »), et synthetic document fine-tuning (descriptions troisième personne style Wikipedia, la technique de la recherche d'insertion de croyances 2025 d'Anthropic). Le code est sur GitHub.

Le résultat est la trouvaille principale à lever : les énoncés en première personne ont battu les démonstrations sur la généralisation, mesurée via une matrice de perplexité 4×3 (baseline plus trois fine-tunes, évalués sur des échantillons des trois formats) plus du trait-tagging sur 30 réponses à prompts fixes pour vérifier les comportements C-3PO (appeler les gens « Sir », citer des odds, exprimer de l'anxiété, étiquette formelle). Le modèle entraîné sur dialogue est le meilleur à produire du dialogue style C-3PO ; le modèle entraîné en première personne produit plus de C-3PO across tous les formats, incluant le dialogue. Les documents synthétiques font autre chose — ils enseignent les faits de la persona (six millions de formes de communication, fonctions de droïde protocolaire) mieux que le sens vécu d'être cette persona. La lecture d'Alia est que les démonstrations updatent les patterns comportementaux, le texte première personne update la self-representation, et SDF update la connaissance du monde sur une entité nommée — et la self-representation généralise plus loin que le comportement. Le hedge honnête de la pièce est aussi important : un system prompt bien tuné reste très compétitif face à n'importe lequel de ces fine-tunes, et l'expérience ne prétend pas que SFT est nécessairement le bon outil pour beaucoup de tâches de persona.

La lecture écosystémique ici relie deux fils qui n'avaient pas été liés publiquement avant. Le travail SDF 2025 d'Anthropic a montré qu'on peut insérer des faits faux-mais-plausibles dans un modèle en entraînant sur du texte style document cadré comme factuel. La trouvaille d'Alia est l'analogue SFT : si tu veux que le modèle soit l'entité, écris en première personne ; si tu veux qu'il connaisse des faits sur l'entité, écris en troisième personne. L'implication pour tous ceux qui bâtissent des assistants support client, des copilotes brandés, des personnages role-play, ou des agents de domaine, c'est que le défaut intuitif (enregistrer des conversations humain-IA, fine-tuner dessus) laisse de la généralisation sur la table. Pour les designers d'agents en particulier — y compris les stacks locaux style Hermes qui s'expédient cette semaine — la question du format de données SFT est exactement celle qui détermine si ton agent a un caractère cohérent ou dérive sous shift de distribution.

Pour les builders qui fine-tunent pour persona ou personnage : génère trois types de données synthétiques (introspection première personne, démonstrations, documents SDF), entraîne des ablations sur des budgets de tokens égaux, et benchmark sur des prompts hors-distribution avant de déployer. Le setup LoRA à 500 exemples qu'Alia a utilisé est assez bon marché pour un weekend single-GPU, et le code est réutilisable. La caveat porteuse est que c'est un résultat single-author, single-base-model (Qwen3-4B) sur une persona fictive — le travail d'insertion de croyances d'Anthropic suggère que le pattern se généralise probablement, mais attends-toi à voir l'expérience refaite sur Llama 4 et sur de vraies personas corporatives avant de traiter « première personne bat les démos » comme acquis. La prise de profondeur est méthodologique : les études d'ablation sur le format de données SFT sont encore rares dans la littérature praticien, et toute équipe qui fait du fine-tuning sérieux devrait faire tourner sa propre version de cette comparaison 3-voies plutôt que de copier les défauts du dernier template qu'elle a vu.

SFT de persona : le texte première personne bat les démos chat sur Qwen3-4B LoRA

Plus de nouvelles