Meta 的 Sapiens2 推出 1K 原生（最高 4K）人體視覺 transformer，開源權重，身體部位分割漲了 24 mIoU

Meta FAIR 這週發布了 Sapiens2——論文被 ICLR 2026 接收，權重放在 GitHub 的 facebookresearch/sapiens2——頭條特性是整個家族現在原生跑 1K 解析度，帶一個 10 億參數、訓練在 4096×3072 的分層變體。大多數早期人體視覺基礎模型在 256 或 512 上就封頂，因為往上走的算力和資料成本是懲罰級的。Sapiens2 團隊在一個經過策劃的 10 億張人體影像資料集上訓練（相比 Sapiens v1 大約 3 億），並把遮擋影像重建與自蒸餾對比目標結合起來，讓同一個主幹同時學到低層細節和高層語義。模型家族從 4 億參數到 50 億，全部使用 patch size 16，基礎尺寸訓練在 1024×768。

輸出集才是讓它在真實生產工作裡有用、而不止是論文 benchmark 的關鍵。單個 Sapiens2 模型同時產出：姿態估計、身體部位分割、表面法線、pointmap（3D 重建原語）、albedo（與光照解耦的內稟表面顏色）。最後這兩個相對 Sapiens v1 是新的，pointmap + albedo 合起來正是你做可重打光 3D 人體頭像所需要的原語——這條模型脈絡直接接入 Meta 的 Codec Avatars 工作。對照 v1 的 benchmark 不算謙虛：姿態 +4 mAP、身體部位分割 +24.3 mIoU、法線估計角度誤差降低 45.6%。分割 mIoU 漲 24 個點這種幅度，是讓上一代直接被淘汰、而不是被疊加的等級。

戰略解讀是：Meta 把這次定位成對長期主導 AR/VR 與視效行業的專有動捕和頭像流水線的「開源權重答卷」。目前市面上達到這種品質的人體視覺堆疊，多數是建在閉源資料集和授權元件之上的——Vicon、Marker.io、各種 body-tracking SDK——而 Sapiens2 直接公開權重，授權和此前 FAIR 一系列發布一致地寬鬆。對一個以前要授權 body-tracking SDK 或自訓練專有堆疊的小工作室或研究實驗室來說，算盤變了。模型不是魔法；它依然需要為生產動捕做清理、為特定相機做校準、為驅動頭像做綁定，但以前要花真金白銀買的那一層基礎，現在能下載了。

對做以人為中心視覺的開發者——VR/AR、健身科技、運動分析、遠程臨場、攝影測量、虛擬試穿、動捕流水線——Sapiens2 值得一次認真評估。1K 和 4K 變體是標題黨；多任務單模型架構才是實際的生產力收益，因為你一次推理就拿到姿態、分割、法線、和 3D 原語，不是跑五次。開源權重意味著你可以在自己的具體應用、體型分布或光照條件上做微調，不用走供應商授權流程。誠實的警告：50 億參數的頂配變體足夠重，要在視訊影格率上服務需要真正的 GPU 基礎設施；10 億影像訓練集有自己的人口分布，會影響在邊緣情況下的公平性——Meta 還沒公布人口分布拆解，這個領域過去對 tracking 的研究表明長尾仍然是這些模型失敗的地方。在部署之前跑你自己的評估集。

Meta 的 Sapiens2 推出 1K 原生（最高 4K）人體視覺 transformer，開源權重，身體部位分割漲了 24 mIoU

更多新聞