Meta AI a publié EUPE (Efficient Universal Perception Encoder), une famille d'encodeurs de vision compacts de moins de 100 millions de paramètres qui prétendent égaler les modèles spécialisés dans la compréhension d'images, la prédiction dense et les tâches vision-langage. Contrairement aux approches typiques qui nécessitent plusieurs encodeurs ou acceptent une dégradation des performances, EUPE utilise ce que Meta appelle la « distillation multi-enseignant agglomérative » pour apprendre simultanément de plusieurs enseignants spécialistes tout en restant compatible avec les appareils edge.
Ça touche un vrai point douloureux que j'ai vu en construisant des pipelines de vision. La plupart des systèmes de production déploient soit plusieurs encodeurs (CLIP pour vision-langage, DINOv2 pour la segmentation, SAM pour la détection d'objets) ou acceptent que leur encodeur unique va être poche pour la moitié des tâches. CLIP excelle en vision-langage mais galère avec les tâches pixel-précises. DINOv2 réussit la segmentation mais peut pas gérer le raisonnement texte-image. L'approche habituelle « juste les combiner » par distillation a échoué sur les backbones efficaces — les tentatives précédentes comme AM-RADIO ont marché sur les gros modèles mais se sont effondrées quand compressées pour le déploiement mobile.
L'approche de Meta semble différente dans l'exécution, bien que les détails du papier soient légers sur les innovations architecturales spécifiques qui font que ça marche là où d'autres ont échoué. La contrainte de moins de 100M paramètres est agressive — c'est du territoire déployable sur smartphone. Mais sans benchmarks indépendants ou données de déploiement réel, c'est dur de vérifier ces affirmations contre les compromis établis qu'on a vus en production.
Pour les développeurs, ça pourrait éliminer la jonglerie multi-encodeur qui rend la vision par ordinateur mobile si complexe. Si EUPE livre sur ses promesses, c'est le genre de changement fondamental qui change comment vous architecturez les applications de vision. Mais vu combien d'encodeurs « universels » ont déçu en pratique, j'attendrais une validation indépendante avant de reconstruire votre stack autour de ça.
