Meta AI发布了EUPE(Efficient Universal Perception Encoder),这是一个少于1亿参数的紧凑视觉编码器系列,声称能在图像理解、密集预测和视觉语言任务中匹敌专业模型。不同于需要多个编码器或接受性能下降的典型方法,EUPE使用Meta称为"聚合多教师蒸馏"的技术,同时从多个专家教师学习,同时保持边缘设备友好性。
这确实解决了我在构建视觉pipeline时遇到的痛点。大多数生产系统要么部署多个编码器(CLIP用于视觉语言,DINOv2用于分割,SAM用于目标检测),要么接受单一编码器在一半任务上表现糟糕。CLIP在视觉语言方面表现出色,但在像素精确任务上表现不佳。DINOv2在分割方面很棒,但无法处理文本图像推理。通过蒸馏"直接组合"的常规方法在高效backbone上失败了——之前像AM-RADIO这样的尝试在大模型上有效,但在压缩为移动部署时就崩溃了。
Meta的方法在执行上看起来不同,尽管论文在使其在其他方法失败的地方成功的具体架构创新细节上比较简略。少于1亿参数的限制很激进——这是智能手机可部署的范围。但没有独立基准测试或真实部署数据,很难验证这些声明是否能对抗我们在生产中看到的既定折衷。
对开发者而言,这可能消除了使移动计算机视觉如此复杂的多编码器杂耍行为。如果EUPE兑现其承诺,这是那种改变你如何架构视觉应用的基础性转变。但考虑到有多少"通用"编码器在实践中令人失望,我会在围绕它重建你的技术栈之前等待独立验证。
