Ferran Alia 周三在 Towards Data Science 发了一份受控的 SFT 对比,测试三种数据格式如何教会一个语言模型一个 persona——结果违反直觉的那个选项赢了。setup 是大多数从业者 post 跳过的部分:Qwen3-4B-Instruct 作为 base model,LoRA(r=16, alpha=32,attention 和 MLP projections),3 epochs 配 cosine LR schedule 加 5% warmup,每个策略 500 条训练样本由 Claude 生成,所有 hyperparameters 保持一致,唯一变量就是数据格式。三种策略对应"persona 住在权重的哪里"的三种不同假设:chat demonstrations(行为模仿)、第一人称内省陈述("I am C-3PO, I prefer to calculate the odds before committing")、以及 synthetic document fine-tuning(第三人称百科风格描述,来自 Anthropic 2025 belief-insertion 研究的技术)。代码在 GitHub。
结果是头条发现,值得直接借用:第一人称陈述在泛化上击败了 demonstrations,通过 4×3 的 perplexity 矩阵(baseline 加三个 fine-tune,在三种格式的样本上分别评估)加上 30 条固定 prompt 回复的 trait-tagging(检查 C-3PO 行为:称呼"Sir"、报 odds、表达焦虑、正式礼仪)。对话训练的模型最擅长产出 C-3PO 风格对话;第一人称训练的模型在所有格式(包括对话)上都更像 C-3PO。合成文档做的是另一件事——它教会 persona 的事实(六百万种沟通形式、礼宾机器人的职能)更胜过教会"成为那个 persona 的感觉"。Alia 的解读是:demonstrations 更新行为模式,第一人称文本更新 self-representation,SDF 更新关于一个具名实体的世界知识——而 self-representation 比行为更能泛化。文章里诚实的 hedge 同样重要:一个调好的 system prompt 在这些 fine-tune 面前依然非常有竞争力,实验也没声称 SFT 一定就是 persona 任务的正确工具。
生态读法在这里连起了两条此前未公开关联的线。Anthropic 2025 的 SDF 工作显示,你可以通过在被定为"事实性"的文档风格文本上训练,把假但看似可信的事实塞进模型。Alia 的发现是 SFT 的对应物:如果你要模型 *是* 那个实体,就写第一人称;如果你要它 *知道* 关于那个实体的事实,就写第三人称。对那些在做客服助手、品牌 copilot、角色扮演角色、领域 agent 的人,含义是:本能默认的做法(把人机对话录下来,在上面 fine-tune)正在把泛化丢在桌上。对 agent 设计者来说尤其如此——包括本周发货的 Hermes 风格本地 stacks——SFT 数据格式问题恰恰决定了你的 agent 有一致的性格,还是在 distribution shift 下漂移。
对要为 persona 或角色做 fine-tune 的 builder:生成三种合成数据(第一人称内省、demonstrations、SDF 文档),在 token budget 对等的前提下跑 ablations,部署前在分布外 prompt 上 benchmark。Alia 用的 500 例 LoRA setup 便宜到在单 GPU 上一个周末就跑完,代码可以直接借用。承重的 caveat 是:这是一个作者、一个 base model(Qwen3-4B)、一个虚构 persona 上的结果——Anthropic 的 belief-insertion 工作暗示这个模式很可能能泛化,但请等到这个实验在 Llama 4 和真实企业 persona 上被复跑后,再把"第一人称胜过 demos"当成定论。更深的 takeaway 是方法论上的:针对 SFT 数据格式的 ablation 研究在从业者文献里依然稀少,任何在做严肃 fine-tuning 的团队,都应该跑自己的 3 路对比,而不是抄上一个看到的模板默认。
