Technology Innovation Institute发布了Falcon Perception,这是一个6亿参数的transformer,它抛弃了计算机视觉的标准模块化方法,采用统一架构。该模型不使用独立的视觉encoder和任务decoder,而是从第一层开始在共享参数空间中处理图像patch和文本token,使用混合注意力机制,其中图像token进行双向注意,而文本遵循因果掩码。该模型以"Chain-of-Perception"序列格式输出坐标、尺寸和分割掩码。

这挑战了现代CV中的一个基本假设——你需要针对不同模态的专门组件。今天大多数视觉-语言模型都遵循"乐高积木"模式,即预训练encoder输入到特定任务的头部。Falcon Perception的早期融合方法可能简化部署和扩展,尽管6亿参数需要与GPT-4V和Gemini Vision等在多模态基准测试中占主导地位的大得多的模型竞争。

技术实现包括几个新颖元素:Golden Gate ROPE (GGROPE)用于在扁平化序列中维持2D空间关系,Muon优化器用于专门的预测头,FlexAttention用于处理原生分辨率图像而不浪费padding。处理可变图像尺寸的scatter-and-pack策略是特别巧妙的工程。然而,论文缺乏与已建立的视觉-语言基线的比较,6亿参数对于统一感知的雄心勃勃目标来说感觉偏小。

对于开发者来说,这代表了一个有趣的架构方向——用一个模型处理多个视觉任务的更简单部署。但没有性能比较或可用权重,很难评估相对于已经在生产中运行良好的现有专门模型的实际可行性。