Liquid AI lanzó LFM2.5-VL-450M, actualizando su modelo visión-lenguaje de 450M parámetros con capacidades de detección de objetos que alcanzan 81.28 en RefCOCO-M (subiendo desde cero) y soporte multilingüe expandido a través de ocho idiomas. El modelo mantiene su enfoque en despliegue edge, ejecutando inferencia en menos de 250ms en hardware que va desde módulos NVIDIA Jetson Orin hasta teléfonos Samsung Galaxy S25 Ultra. El entrenamiento escaló de 10T a 28T tokens con optimización de preferencias añadida para mejorar el seguimiento de instrucciones y precisión de grounding.
Esto importa porque la mayoría de modelos visión-lenguaje requieren infraestructura cloud, creando problemas de latencia y privacidad para aplicaciones del mundo real como robótica de almacén o cámaras de retail inteligente. Cuando cubrí el modelo 350M de Liquid AI el mes pasado, su arquitectura híbrida ya superaba a rivales más grandes. Añadir detección de objetos a un modelo 450M que corre localmente cambia el cálculo de despliegue para aplicaciones de visión computacional que necesitan tanto velocidad como salidas estructuradas.
Los detalles técnicos muestran decisiones de ingeniería cuidadosas: codificador de visión SigLIP2 con resolución nativa 512×512, codificación thumbnail para contexto global durante el image tiling, y límites de tokens de imagen ajustables para trade-offs velocidad-calidad sin reentrenamiento. El soporte de function calling sugiere que apuntan a workflows agénticos donde la visión alimenta acciones estructuradas. Sin embargo, el límite de resolución 512×512 y la ventana de contexto 32K restringen casos de uso comparado con alternativas basadas en cloud.
Para desarrolladores construyendo aplicaciones de visión, esto representa un término medio práctico entre capacidad y restricciones de despliegue. La inferencia sub-250ms abre casos de uso interactivos, mientras que la predicción de bounding boxes permite extracción de datos estructurados de streams de imágenes. La prueba real será cómo se desempeña en tareas específicas del dominio después de fine-tuning, especialmente dadas las afirmaciones de Liquid AI sobre eficiencia de adaptación.
