Sapiens2 de Meta envía transformers de visión humana nativos a 1K hasta 4K, con pesos abiertos y un salto de +24 mIoU en segmentación de partes del cuerpo

Meta FAIR lanzó Sapiens2 esta semana — paper aceptado en ICLR 2026, pesos en GitHub en facebookresearch/sapiens2 — y la característica destacada es que toda la familia ahora corre a resolución 1K de forma nativa, con una variante jerárquica de 1B de parámetros entrenada a 4096×3072. La mayoría de los modelos fundacionales de visión humana anteriores se topan en 256 o 512 porque los costos de cómputo y datos para ir más alto son punitivos. El equipo de Sapiens2 entrenó con un dataset curado de mil millones de imágenes humanas (subiendo desde aproximadamente 300 millones en Sapiens v1) y usó una combinación de reconstrucción de imagen enmascarada con objetivos contrastivos auto-destilados para aprender tanto detalles de bajo nivel como semántica de alto nivel en el mismo backbone. La familia de modelos va de 0,4B a 5B parámetros, todos usando tamaño de patch 16, con el tamaño base entrenado a 1024×768.

El conjunto de salidas es lo que hace que esto sea útil para trabajo real de producción, no solo benchmarks de paper. Un solo modelo Sapiens2 produce estimación de pose, segmentación de partes del cuerpo, normales de superficie, pointmap (primitiva de reconstrucción 3D) y albedo (color intrínseco de superficie, desacoplado de iluminación). Ese último par es nuevo comparado con Sapiens v1, y pointmap + albedo juntos son las primitivas que necesitas para avatares humanos 3D re-iluminables — que es donde el linaje del modelo se conecta al trabajo Codec Avatars de Meta. Los benchmarks contra v1 no son modestos: +4 mAP en pose, +24,3 mIoU en segmentación de partes del cuerpo y 45,6% menos error angular en estimación de normales. Una mejora de 24 puntos en mIoU de segmentación es el tipo de salto que hace obsoleta la generación anterior en lugar de incrementarla.

La lectura estratégica es que Meta se está posicionando esto como la respuesta de open-weights a los pipelines propietarios de mocap y avatares que han dominado las industrias AR/VR y de efectos visuales. La mayoría de los stacks de visión humana existentes en este nivel de calidad están construidos sobre datasets cerrados y componentes licenciados — Vicon, Marker.io, los varios SDKs de body-tracking — y Sapiens2 envía los pesos públicamente bajo una licencia permisiva consistente con lanzamientos FAIR anteriores. Para un estudio pequeño o un laboratorio de investigación que antes necesitaba licenciar un SDK de body-tracking o entrenar un stack propietario, el cálculo ha cambiado. El modelo no es magia; aún necesita limpieza para mocap de producción, calibración para cámaras específicas y trabajo de rigging para impulsar avatares, pero la capa fundacional que solía costar dinero real ahora es descargable.

Para desarrolladores trabajando en visión centrada en humanos — VR/AR, tecnología de fitness, analítica deportiva, telepresencia, fotogrametría, prueba virtual, pipelines de captura de movimiento — Sapiens2 merece una evaluación seria. Las variantes 1K y 4K son el titular; la arquitectura multi-tarea de modelo único es la ganancia práctica de productividad porque obtienes pose, segmentación, normales y primitivas 3D de un solo pase de inferencia en lugar de cinco. El lanzamiento de open-weights significa que puedes fine-tunear sobre tu aplicación específica, distribuciones de tipo corporal o condiciones de iluminación sin pasar por un ciclo de licencia de vendor. Las advertencias honestas son que la variante de 5B parámetros del extremo superior es lo suficientemente pesada para necesitar infraestructura GPU real para servir a tasas de cuadro de video, y el conjunto de entrenamiento de mil millones de imágenes tiene su propia distribución demográfica que afecta la equidad en casos extremos — Meta aún no ha publicado el desglose demográfico y la investigación previa de tracking del campo sugiere que la cola larga es donde estos modelos aún fallan. Corre tu propio conjunto de evaluación antes de desplegar.

Sapiens2 de Meta envía transformers de visión humana nativos a 1K hasta 4K, con pesos abiertos y un salto de +24 mIoU en segmentación de partes del cuerpo

Más noticias