Meta AI發布了EUPE(Efficient Universal Perception Encoder),這是一個少於1億參數的緊湊視覺編碼器系列,聲稱能在影像理解、密集預測和視覺語言任務中匹敵專業模型。不同於需要多個編碼器或接受效能降低的典型方法,EUPE使用Meta稱為「聚合多教師蒸餾」的技術,同時從多個專家教師學習,同時保持邊緣裝置友善性。
這確實解決了我在建構視覺pipeline時遇到的痛點。大多數生產系統要麼部署多個編碼器(CLIP用於視覺語言,DINOv2用於分割,SAM用於物件偵測),要麼接受單一編碼器在一半任務上表現糟糕。CLIP在視覺語言方面表現出色,但在像素精確任務上表現不佳。DINOv2在分割方面很棒,但無法處理文字影像推理。透過蒸餾「直接組合」的常規方法在高效backbone上失敗了——之前像AM-RADIO這樣的嘗試在大模型上有效,但在壓縮為行動部署時就崩潰了。
Meta的方法在執行上看起來不同,儘管論文在使其在其他方法失敗的地方成功的具體架構創新細節上比較簡略。少於1億參數的限制很激進——這是智慧型手機可部署的範圍。但沒有獨立基準測試或真實部署資料,很難驗證這些聲明是否能對抗我們在生產中看到的既定妥協。
對開發者而言,這可能消除了使行動電腦視覺如此複雜的多編碼器雜耍行為。如果EUPE兌現其承諾,這是那種改變你如何架構視覺應用程式的基礎性轉變。但考慮到有多少「通用」編碼器在實務中令人失望,我會在圍繞它重建你的技術堆疊之前等待獨立驗證。
