Sapiens2 de Meta ship des transformers de vision humaine 1K natif jusqu'à 4K, avec des poids ouverts pis un saut de +24 mIoU sur la segmentation des parties du corps

Meta FAIR a sorti Sapiens2 cette semaine — article accepté à ICLR 2026, poids sur GitHub à facebookresearch/sapiens2 — pis la fonctionnalité vedette, c'est que toute la famille roule maintenant à résolution 1K nativement, avec une variante hiérarchique à 1 G de paramètres entraînée à 4096×3072. La plupart des modèles de fondation de vision humaine antérieurs plafonnent à 256 ou 512 parce que les coûts de calcul pis de données pour aller plus haut sont punitifs. L'équipe Sapiens2 a entraîné sur un dataset curé de 1 milliard d'images humaines (en hausse depuis environ 300 millions dans Sapiens v1) pis a utilisé une combinaison de reconstruction d'image masquée avec des objectifs contrastifs auto-distillés pour apprendre à la fois les détails bas niveau pis la sémantique haut niveau dans le même backbone. La famille de modèles va de 0,4 G à 5 G de paramètres, tous utilisant la taille de patch 16, avec la taille de base entraînée à 1024×768.

L'ensemble des sorties, c'est ce qui rend ça utile pour du vrai travail de production, pas juste des benchmarks d'article. Un seul modèle Sapiens2 produit l'estimation de pose, la segmentation des parties du corps, les normales de surface, le pointmap (primitive de reconstruction 3D) pis l'albedo (couleur de surface intrinsèque, découplée de l'éclairage). Cette dernière paire est nouvelle par rapport à Sapiens v1, pis pointmap + albedo ensemble, c'est les primitives dont t'as besoin pour des avatars humains 3D rééclairables — ce qui est là que la lignée du modèle se branche au travail Codec Avatars de Meta. Les benchmarks contre v1 sont pas modestes : +4 mAP sur la pose, +24,3 mIoU sur la segmentation des parties du corps pis 45,6 % d'erreur angulaire en moins sur l'estimation des normales. Une amélioration de 24 points sur le mIoU de segmentation, c'est le genre de saut qui rend la génération précédente obsolète plutôt que de l'incrémenter.

La lecture stratégique, c'est que Meta se positionne ça comme la réponse open-weights aux pipelines propriétaires de mocap pis d'avatars qui ont dominé les industries AR/VR pis des effets visuels. La plupart des stacks de vision humaine existants à ce niveau de qualité sont bâtis sur des datasets fermés pis des composants licenciés — Vicon, Marker.io, les divers SDK de body-tracking — pis Sapiens2 ship les poids publiquement sous une licence permissive cohérente avec les sorties FAIR précédentes. Pour un petit studio ou un lab de recherche qui devait avant licencier un SDK de body-tracking ou entraîner un stack propriétaire, le calcul a changé. Le modèle est pas magique ; il a encore besoin de nettoyage pour la mocap de production, de calibration pour des caméras spécifiques pis de travail de rigging pour piloter des avatars, mais la couche de fondation qui coûtait avant de l'argent réel est maintenant téléchargeable.

Pour les développeurs qui travaillent sur la vision centrée sur l'humain — VR/AR, tech de fitness, analytique sportive, téléprésence, photogrammétrie, essayage virtuel, pipelines de capture de mouvement — Sapiens2 mérite une évaluation sérieuse. Les variantes 1K pis 4K, c'est la manchette ; l'architecture multi-tâche à modèle unique, c'est le gain de productivité pratique parce que tu obtiens pose, segmentation, normales pis primitives 3D d'une seule passe d'inférence au lieu de cinq. La sortie en poids ouverts veut dire que tu peux fine-tuner sur ton application spécifique, ta distribution de types de corps ou tes conditions d'éclairage sans passer par un cycle de licence vendeur. Les mises en garde honnêtes, c'est que la variante haut de gamme à 5 G de paramètres est assez lourde pour avoir besoin d'infrastructure GPU réelle pour servir à des fréquences de trame vidéo, pis que le set d'entraînement de 1 milliard d'images a sa propre distribution démographique qui affecte l'équité sur les cas marginaux — Meta a pas encore publié la répartition démographique pis la recherche antérieure du domaine sur le tracking suggère que c'est dans la longue queue que ces modèles échouent encore. Roule ton propre set d'évaluation avant de déployer.

Sapiens2 de Meta ship des transformers de vision humaine 1K natif jusqu'à 4K, avec des poids ouverts pis un saut de +24 mIoU sur la segmentation des parties du corps

Plus de nouvelles