Ferran Alia 週三在 Towards Data Science 發了一份受控的 SFT 對比,測試三種資料格式如何教會一個語言模型一個 persona——結果違反直覺的那個選項贏了。setup 是大多數從業者 post 跳過的部分:Qwen3-4B-Instruct 作為 base model,LoRA(r=16, alpha=32,attention 和 MLP projections),3 epochs 配 cosine LR schedule 加 5% warmup,每個策略 500 條訓練樣本由 Claude 生成,所有 hyperparameters 保持一致,唯一變量就是資料格式。三種策略對應「persona 住在權重的哪裡」的三種不同假設:chat demonstrations(行為模仿)、第一人稱內省陳述(「I am C-3PO, I prefer to calculate the odds before committing」)、以及 synthetic document fine-tuning(第三人稱百科風格描述,來自 Anthropic 2025 belief-insertion 研究的技術)。程式碼在 GitHub。

結果是頭條發現,值得直接借用:第一人稱陳述在泛化上擊敗了 demonstrations,透過 4×3 的 perplexity 矩陣(baseline 加三個 fine-tune,在三種格式的樣本上分別評估)加上 30 條固定 prompt 回覆的 trait-tagging(檢查 C-3PO 行為:稱呼「Sir」、報 odds、表達焦慮、正式禮儀)。對話訓練的模型最擅長產出 C-3PO 風格對話;第一人稱訓練的模型在所有格式(包括對話)上都更像 C-3PO。合成文檔做的是另一件事——它教會 persona 的事實(六百萬種溝通形式、禮賓機器人的職能)更勝過教會「成為那個 persona 的感覺」。Alia 的解讀是:demonstrations 更新行為模式,第一人稱文本更新 self-representation,SDF 更新關於一個具名實體的世界知識——而 self-representation 比行為更能泛化。文章裡誠實的 hedge 同樣重要:一個調好的 system prompt 在這些 fine-tune 面前依然非常有競爭力,實驗也沒聲稱 SFT 一定就是 persona 任務的正確工具。

生態讀法在這裡連起了兩條此前未公開關聯的線。Anthropic 2025 的 SDF 工作顯示,你可以透過在被定為「事實性」的文檔風格文本上訓練,把假但看似可信的事實塞進模型。Alia 的發現是 SFT 的對應物:如果你要模型 *是* 那個實體,就寫第一人稱;如果你要它 *知道* 關於那個實體的事實,就寫第三人稱。對那些在做客服助理、品牌 copilot、角色扮演角色、領域 agent 的人,含義是:本能預設的做法(把人機對話錄下來,在上面 fine-tune)正在把泛化丟在桌上。對 agent 設計者來說尤其如此——包括本週發貨的 Hermes 風格本地 stacks——SFT 資料格式問題恰恰決定了你的 agent 有一致的個性,還是在 distribution shift 下漂移。

對要為 persona 或角色做 fine-tune 的 builder:產生三種合成資料(第一人稱內省、demonstrations、SDF 文檔),在 token budget 對等的前提下跑 ablations,部署前在分布外 prompt 上 benchmark。Alia 用的 500 例 LoRA setup 便宜到在單 GPU 上一個週末就跑完,程式碼可以直接借用。承重的 caveat 是:這是一個作者、一個 base model(Qwen3-4B)、一個虛構 persona 上的結果——Anthropic 的 belief-insertion 工作暗示這個模式很可能能泛化,但請等到這個實驗在 Llama 4 和真實企業 persona 上被複跑後,再把「第一人稱勝過 demos」當成定論。更深的 takeaway 是方法論上的:針對 SFT 資料格式的 ablation 研究在從業者文獻裡依然稀少,任何在做嚴肅 fine-tuning 的團隊,都應該跑自己的 3 路對比,而不是抄上一個看到的模板預設。