Meta 的 Sapiens2 推出 1K 原生（最高 4K）人体视觉 transformer，开源权重，身体部位分割涨了 24 mIoU

Meta FAIR 这周发布了 Sapiens2——论文被 ICLR 2026 接收，权重放在 GitHub 的 facebookresearch/sapiens2——头条特性是整个家族现在原生跑 1K 分辨率，带一个 10 亿参数、训练在 4096×3072 的分层变体。大多数早期人体视觉基础模型在 256 或 512 上就封顶，因为往上走的算力和数据成本是惩罚级的。Sapiens2 团队在一个经过策划的 10 亿张人体图像数据集上训练（相比 Sapiens v1 大约 3 亿），并把遮挡图像重建与自蒸馏对比目标结合起来，让同一个主干同时学到低层细节和高层语义。模型家族从 4 亿参数到 50 亿，全部使用 patch size 16，基础尺寸训练在 1024×768。

输出集才是让它在真实生产工作里有用、而不止是论文 benchmark 的关键。单个 Sapiens2 模型同时产出：姿态估计、身体部位分割、表面法线、pointmap（3D 重建原语）、albedo（与光照解耦的内禀表面颜色）。最后这两个相对 Sapiens v1 是新的，pointmap + albedo 合起来正是你做可重打光 3D 人体头像所需要的原语——这条模型脉络直接接入 Meta 的 Codec Avatars 工作。对照 v1 的 benchmark 不算谦虚：姿态 +4 mAP、身体部位分割 +24.3 mIoU、法线估计角度误差降低 45.6%。分割 mIoU 涨 24 个点这种幅度，是让上一代直接被淘汰、而不是被叠加的级别。

战略解读是：Meta 把这次定位成对长期主导 AR/VR 与视效行业的专有动捕和头像流水线的"开源权重答卷"。当前市面上达到这种质量的人体视觉栈，多数是建在闭源数据集和授权组件之上的——Vicon、Marker.io、各种 body-tracking SDK——而 Sapiens2 直接公开权重，许可证和此前 FAIR 一系列发布一致地宽松。对一个以前要授权 body-tracking SDK 或自训练专有栈的小工作室或研究实验室来说，算盘变了。模型不是魔法；它依然需要为生产动捕做清理、为特定相机做标定、为驱动头像做绑定，但以前要花真金白银买的那一层基础，现在能下载了。

对做以人为中心视觉的开发者——VR/AR、健身科技、运动分析、远程在场、摄影测量、虚拟试穿、动捕流水线——Sapiens2 值得一次认真评估。1K 和 4K 变体是标题党；多任务单模型架构才是实际的生产力收益，因为你一次推理就拿到姿态、分割、法线、和 3D 原语，不是跑五次。开源权重意味着你可以在自己的具体应用、体型分布或光照条件上做微调，不用走供应商授权流程。诚实的警告：50 亿参数的顶配变体足够重，要在视频帧率上服务需要真正的 GPU 基础设施；10 亿图像训练集有自己的人口分布，会影响在边缘情况下的公平性——Meta 还没公布人口分布拆解，这个领域过去对 tracking 的研究表明长尾仍然是这些模型失败的地方。在部署之前跑你自己的评估集。

Meta 的 Sapiens2 推出 1K 原生（最高 4K）人体视觉 transformer，开源权重，身体部位分割涨了 24 mIoU

更多新闻