Liquid AI发布了LFM2.5-VL-450M,升级了他们的450M参数视觉-语言模型,新增目标检测功能,在RefCOCO-M上得分81.28(从零开始提升),并扩展了对八种语言的多语言支持。该模型保持其边缘部署重点,在从NVIDIA Jetson Orin模块到Samsung Galaxy S25 Ultra手机的硬件上,推理时间低于250ms。训练从10T扩展到28T tokens,增加了偏好优化以提高指令跟随和grounding准确性。

这很重要,因为大多数视觉-语言模型需要云基础设施,为仓库机器人或智能零售摄像头等现实世界应用创造了延迟和隐私问题。上个月我报道Liquid AI的350M模型时,他们的混合架构已经超越了更大的竞争对手。在本地运行的450M模型中添加目标检测改变了需要速度和结构化输出的计算机视觉应用的部署考量。

技术细节显示了周到的工程选择:SigLIP2视觉encoder,原生分辨率512×512,thumbnail编码用于图像分块期间的全局上下文,以及可调的图像token限制,无需重训练即可实现速度-质量权衡。Function calling支持表明他们正在针对代理型工作流,其中视觉输入结构化操作。然而,512×512分辨率限制和32K上下文窗口限制了与基于云的替代方案相比的使用案例。

对于构建视觉应用的开发者来说,这代表了能力和部署约束之间的实用中间地带。低于250ms的推理开启了交互式使用案例,而bounding box预测允许从图像流中提取结构化数据。真正的测试将是fine-tuning后在领域特定任务上的表现,特别是考虑到Liquid AI关于适应效率的声明。