Liquid AI發布了LFM2.5-VL-450M,升級了他們的450M參數視覺-語言模型,新增物件檢測功能,在RefCOCO-M上得分81.28(從零開始提升),並擴展了對八種語言的多語言支援。該模型維持其邊緣部署重點,在從NVIDIA Jetson Orin模組到Samsung Galaxy S25 Ultra手機的硬體上,推理時間低於250ms。訓練從10T擴展到28T tokens,增加了偏好最佳化以改善指令跟隨和grounding準確性。
這很重要,因為大多數視覺-語言模型需要雲端基礎設施,為倉庫機器人或智慧零售攝影機等現實世界應用創造了延遲和隱私問題。上個月我報導Liquid AI的350M模型時,他們的混合架構已經超越了更大的競爭對手。在本地執行的450M模型中新增物件檢測改變了需要速度和結構化輸出的電腦視覺應用的部署考量。
技術細節顯示了周到的工程選擇:SigLIP2視覺encoder,原生解析度512×512,thumbnail編碼用於影像分塊期間的全域上下文,以及可調的影像token限制,無需重新訓練即可實現速度-品質權衡。Function calling支援表明他們正在針對代理型工作流程,其中視覺輸入結構化操作。然而,512×512解析度限制和32K上下文視窗限制了與基於雲端的替代方案相比的使用案例。
對於建構視覺應用的開發者來說,這代表了能力和部署約束之間的實用中間地帶。低於250ms的推理開啟了互動式使用案例,而bounding box預測允許從影像串流中擷取結構化資料。真正的測試將是fine-tuning後在領域特定任務上的表現,特別是考慮到Liquid AI關於適應效率的聲明。
