如果你接手過一個微調後的檢查點,卻沒辦法乾淨俐落地確認它是從哪裡調出來的,Cisco 的新 Model Provenance Kit 正瞄準這個空白。MPK 以開源 Python 工具包加 CLI 的形式發布,在權重級別為模型產生指紋 —— 檢查架構中繼資料、tokenizer 結構以及學習到的權重本身,來判斷兩個 Transformer 是否共享同一血統。

工具自帶兩種模式。Compare 在任意兩個模型之間產生詳細的相似度分解。Scan 將單個模型對照一個初始指紋庫進行匹配,該庫涵蓋大約 150 個基礎模型,分布於 45 個家族、20 家發布方,參數量從 135M 到超過 70B。這與 sigstore/model-transparency 這類基於 sigstore 的認證專案姿態不同 —— 後者在發布時對成品簽名。Cisco 的思路假設成品已在你手上,需要從權重本身恢復血統 —— 當上游簽名從未做過、或一個模型到手時沒有任何文件時,這非常實用。

權重級指紋補上了僅靠簽名所涵蓋不到的空白。每一次微調、每一次 LoRA 合併、每一個 HuggingFace pull 中未署名的分支,都是血統遺失的地方。倚靠歐盟 AI 法案溯源要求的監管者、掃描中毒基礎模型的資安團隊、上游 CVE 之後的事件回應 —— 所有人都需要一種方法,在不信任清單的前提下問一句「這個模型到底是什麼?」這正是包裝層經濟一直默默缺失的那類基礎設施:不是一個新模型,而是一種知道你站在什麼之上的方法。

如果你交付任何吸納第三方模型的東西 —— 內部 AI 平台、模型市集、微調服務 —— 克隆儲存庫,對你的庫存執行 Scan,看看會浮出什麼。指紋庫現在是頭 150 筆;貢獻者添加得越多,價值越高。如果你發布基礎模型,貢獻指紋就是生態系在血統問題上變誠實的方式。