Meta FAIR 這週發布了 Sapiens2——論文被 ICLR 2026 接收,權重放在 GitHub 的 facebookresearch/sapiens2——頭條特性是整個家族現在原生跑 1K 解析度,帶一個 10 億參數、訓練在 4096×3072 的分層變體。大多數早期人體視覺基礎模型在 256 或 512 上就封頂,因為往上走的算力和資料成本是懲罰級的。Sapiens2 團隊在一個經過策劃的 10 億張人體影像資料集上訓練(相比 Sapiens v1 大約 3 億),並把遮擋影像重建與自蒸餾對比目標結合起來,讓同一個主幹同時學到低層細節和高層語義。模型家族從 4 億參數到 50 億,全部使用 patch size 16,基礎尺寸訓練在 1024×768。
輸出集才是讓它在真實生產工作裡有用、而不止是論文 benchmark 的關鍵。單個 Sapiens2 模型同時產出:姿態估計、身體部位分割、表面法線、pointmap(3D 重建原語)、albedo(與光照解耦的內稟表面顏色)。最後這兩個相對 Sapiens v1 是新的,pointmap + albedo 合起來正是你做可重打光 3D 人體頭像所需要的原語——這條模型脈絡直接接入 Meta 的 Codec Avatars 工作。對照 v1 的 benchmark 不算謙虛:姿態 +4 mAP、身體部位分割 +24.3 mIoU、法線估計角度誤差降低 45.6%。分割 mIoU 漲 24 個點這種幅度,是讓上一代直接被淘汰、而不是被疊加的等級。
戰略解讀是:Meta 把這次定位成對長期主導 AR/VR 與視效行業的專有動捕和頭像流水線的「開源權重答卷」。目前市面上達到這種品質的人體視覺堆疊,多數是建在閉源資料集和授權元件之上的——Vicon、Marker.io、各種 body-tracking SDK——而 Sapiens2 直接公開權重,授權和此前 FAIR 一系列發布一致地寬鬆。對一個以前要授權 body-tracking SDK 或自訓練專有堆疊的小工作室或研究實驗室來說,算盤變了。模型不是魔法;它依然需要為生產動捕做清理、為特定相機做校準、為驅動頭像做綁定,但以前要花真金白銀買的那一層基礎,現在能下載了。
對做以人為中心視覺的開發者——VR/AR、健身科技、運動分析、遠程臨場、攝影測量、虛擬試穿、動捕流水線——Sapiens2 值得一次認真評估。1K 和 4K 變體是標題黨;多任務單模型架構才是實際的生產力收益,因為你一次推理就拿到姿態、分割、法線、和 3D 原語,不是跑五次。開源權重意味著你可以在自己的具體應用、體型分布或光照條件上做微調,不用走供應商授權流程。誠實的警告:50 億參數的頂配變體足夠重,要在視訊影格率上服務需要真正的 GPU 基礎設施;10 億影像訓練集有自己的人口分布,會影響在邊緣情況下的公平性——Meta 還沒公布人口分布拆解,這個領域過去對 tracking 的研究表明長尾仍然是這些模型失敗的地方。在部署之前跑你自己的評估集。
