Technology Innovation Institute發布了Falcon Perception,這是一個6億參數的transformer,它拋棄了電腦視覺的標準模組化方法,採用統一架構。該模型不使用獨立的視覺encoder和任務decoder,而是從第一層開始在共享參數空間中處理圖像patch和文字token,使用混合注意力機制,其中圖像token進行雙向注意,而文字遵循因果遮罩。該模型以「Chain-of-Perception」序列格式輸出座標、尺寸和分割遮罩。
這挑戰了現代CV中的一個基本假設——你需要針對不同模態的專門組件。今天大多數視覺-語言模型都遵循「樂高積木」模式,即預訓練encoder輸入到特定任務的頭部。Falcon Perception的早期融合方法可能簡化部署和擴展,儘管6億參數需要與GPT-4V和Gemini Vision等在多模態基準測試中佔主導地位的大得多的模型競爭。
技術實現包括幾個新穎元素:Golden Gate ROPE (GGROPE)用於在扁平化序列中維持2D空間關係,Muon優化器用於專門的預測頭,FlexAttention用於處理原生解析度圖像而不浪費padding。處理可變圖像尺寸的scatter-and-pack策略是特別巧妙的工程。然而,論文缺乏與已建立的視覺-語言基線的比較,6億參數對於統一感知的雄心勃勃目標來說感覺偏小。
對於開發者來說,這代表了一個有趣的架構方向——用一個模型處理多個視覺任務的更簡單部署。但沒有效能比較或可用權重,很難評估相對於已經在生產中運行良好的現有專門模型的實際可行性。
