Meta FAIR 这周发布了 Sapiens2——论文被 ICLR 2026 接收,权重放在 GitHub 的 facebookresearch/sapiens2——头条特性是整个家族现在原生跑 1K 分辨率,带一个 10 亿参数、训练在 4096×3072 的分层变体。大多数早期人体视觉基础模型在 256 或 512 上就封顶,因为往上走的算力和数据成本是惩罚级的。Sapiens2 团队在一个经过策划的 10 亿张人体图像数据集上训练(相比 Sapiens v1 大约 3 亿),并把遮挡图像重建与自蒸馏对比目标结合起来,让同一个主干同时学到低层细节和高层语义。模型家族从 4 亿参数到 50 亿,全部使用 patch size 16,基础尺寸训练在 1024×768。

输出集才是让它在真实生产工作里有用、而不止是论文 benchmark 的关键。单个 Sapiens2 模型同时产出:姿态估计、身体部位分割、表面法线、pointmap(3D 重建原语)、albedo(与光照解耦的内禀表面颜色)。最后这两个相对 Sapiens v1 是新的,pointmap + albedo 合起来正是你做可重打光 3D 人体头像所需要的原语——这条模型脉络直接接入 Meta 的 Codec Avatars 工作。对照 v1 的 benchmark 不算谦虚:姿态 +4 mAP、身体部位分割 +24.3 mIoU、法线估计角度误差降低 45.6%。分割 mIoU 涨 24 个点这种幅度,是让上一代直接被淘汰、而不是被叠加的级别。

战略解读是:Meta 把这次定位成对长期主导 AR/VR 与视效行业的专有动捕和头像流水线的"开源权重答卷"。当前市面上达到这种质量的人体视觉栈,多数是建在闭源数据集和授权组件之上的——Vicon、Marker.io、各种 body-tracking SDK——而 Sapiens2 直接公开权重,许可证和此前 FAIR 一系列发布一致地宽松。对一个以前要授权 body-tracking SDK 或自训练专有栈的小工作室或研究实验室来说,算盘变了。模型不是魔法;它依然需要为生产动捕做清理、为特定相机做标定、为驱动头像做绑定,但以前要花真金白银买的那一层基础,现在能下载了。

对做以人为中心视觉的开发者——VR/AR、健身科技、运动分析、远程在场、摄影测量、虚拟试穿、动捕流水线——Sapiens2 值得一次认真评估。1K 和 4K 变体是标题党;多任务单模型架构才是实际的生产力收益,因为你一次推理就拿到姿态、分割、法线、和 3D 原语,不是跑五次。开源权重意味着你可以在自己的具体应用、体型分布或光照条件上做微调,不用走供应商授权流程。诚实的警告:50 亿参数的顶配变体足够重,要在视频帧率上服务需要真正的 GPU 基础设施;10 亿图像训练集有自己的人口分布,会影响在边缘情况下的公平性——Meta 还没公布人口分布拆解,这个领域过去对 tracking 的研究表明长尾仍然是这些模型失败的地方。在部署之前跑你自己的评估集。