核心结论
⚡ 一句话看清楚:Sapiens2 不是又一个「人体姿态 demo」,而是 Meta 把人体相关视觉任务做成了一个可复用的高分辨率基础骨干:同一套 Sapiens2 ViT backbone,向下接姿态、人体部位分割、表面法线、3D pointmap 和人像 matting 等任务头;向上服务人像生成、虚拟试衣、Avatar、视频理解、机器人感知和空间 AI。[1][2][3]
真正值得关注的不是「它会抠人像」或「它会估姿态」,而是三件事:
- 分辨率路线清晰:主模型原生 1024×768,另有 4096×3072 的 4K 预训练变体,不再把人体细节全部压进低分辨率 token。[2]
- 模型规模进入 foundation backbone 区间:0.1B、0.4B、0.8B、1B、1B-4K、5B 六档,最大 5.071B 参数,15.722T FLOPs。[2][4]
- 开源但不是宽松商业许可:代码和权重以 Sapiens2 License 发布,明确禁止监控、生物识别处理、重识别、deepfake、敏感属性推断等用途。[5][6]
§ 1 Sapiens2 到底是什么
Sapiens2 是 Meta / facebookresearch 发布的 human-centric vision transformer family。GitHub README 的定位很直接:这是一个在 1B 人体图像上预训练的高分辨率 transformer 家族,用于姿态估计、身体部位分割、表面法线、pointmap 和人像 matting 等人体中心任务。[1][2]
它和通用视觉模型的差别在于:Sapiens2 不试图覆盖所有图片,而是把「人」作为唯一主轴。人的身体、衣服、姿态、轮廓、遮挡、表面几何、前景 alpha,是它要学的核心结构。
这个定位很现实。今天很多生成式视频、人像电商、虚拟试衣、游戏 Avatar、3D 重建、机器人跟人交互的瓶颈,不是「看不懂图片里有个人」,而是:
- 手、脚、脸、头发、衣服边界能否稳定分清;
- 肩膀、手肘、膝盖、脚踝等关键点能否在遮挡/复杂服装下稳住;
- 人体表面朝向和几何能否被恢复;
- 前景人像能否软边缘抠出来;
- 一帧结果能不能扩展到视频级一致性。
Sapiens2 正是为这些密集人体预测任务做的基础层。
§ 2 技术路线:为什么是 1B 人体图像 + MAE + 对比学习
论文摘要给出的核心改动有三条:[3]
第一,预训练目标不只做重建。 Sapiens2 结合 masked image reconstruction 和 self-distilled contrastive objectives。直观理解:MAE 类重建让模型保留纹理、边界和局部细节;对比学习让模型学到更高层的人体语义分组。人体视觉很吃这两者的平衡:只看局部细节会丢语义,只看语义又会把手指、衣褶、头发边缘糊掉。
第二,数据轴继续放大。 Sapiens2 在 1B 高质量人体图像上预训练。论文强调同时提高了任务标注的质量和数量。相比 Sapiens 一代,这意味着它不只是换架构,而是用更大的、专门筛过的人体数据继续堆尺度。[3]
第三,架构吸收 frontier ViT 稳定训练经验。 Hugging Face 模型卡显示,Sapiens2 5B 使用 ViT 架构,并包含 RoPE、GQA、SwiGLU、RMSNorm、QK-norm 等现代大模型训练组件。[4] 这说明 Meta 把语言/多模态大模型里验证过的一些稳定性模块带到了高分辨率视觉骨干里。