如果你接手过一个微调后的检查点,却没法干净利落地确认它是从哪里调出来的,Cisco 的新 Model Provenance Kit 正瞄准这个空白。MPK 以开源 Python 工具包加 CLI 的形式发布,在权重级别为模型生成指纹 —— 检查架构元数据、tokenizer 结构以及学习到的权重本身,来判断两个 Transformer 是否共享同一血统。

工具自带两种模式。Compare 在任意两个模型之间生成详细的相似度分解。Scan 将单个模型对照一个初始指纹库进行匹配,该库覆盖大约 150 个基础模型,分布于 45 个家族、20 家发布方,参数量从 135M 到超过 70B。这与 sigstore/model-transparency 这类基于 sigstore 的认证项目姿态不同 —— 后者在发布时对工件签名。Cisco 的思路假设工件已在你手上,需要从权重本身恢复血统 —— 当上游签名从未做过、或一个模型到手时没有任何文档时,这非常实用。

权重级指纹补上了仅靠签名所覆盖不到的空白。每一次微调、每一次 LoRA 合并、每一个 HuggingFace pull 中未署名的分支,都是血统丢失的地方。倚靠欧盟 AI 法案溯源要求的监管者、扫描中毒基础模型的安全团队、上游 CVE 之后的事件响应 —— 所有人都需要一种方法,在不信任清单的前提下问一句"这个模型到底是什么?"这正是包装层经济一直默默缺失的那类基础设施:不是一个新模型,而是一种知道你站在什么之上的方法。

如果你交付任何吸纳第三方模型的东西 —— 内部 AI 平台、模型市场、微调服务 —— 克隆仓库,对你的库存运行 Scan,看看会浮出什么。指纹库现在是头 150 条;贡献者添加得越多,价值越高。如果你发布基础模型,贡献指纹就是生态系统在血统问题上变诚实的方式。