Le modèle de vision 450M de Liquid AI obtient la détection d'objets, fonctionne sous 250ms en edge

Liquid AI a lancé LFM2.5-VL-450M, améliorant leur modèle vision-langage de 450M paramètres avec des capacités de détection d'objets qui atteignent 81,28 sur RefCOCO-M (comparé à zéro auparavant) et un support multilingue élargi à travers huit langues. Le modèle maintient son focus sur le déploiement en edge, exécutant l'inférence en moins de 250ms sur du matériel allant des modules NVIDIA Jetson Orin aux téléphones Samsung Galaxy S25 Ultra. L'entraînement est passé de 10T à 28T tokens avec une optimisation des préférences ajoutée pour améliorer le suivi d'instructions et la précision d'ancrage.

C'est important parce que la plupart des modèles vision-langage nécessitent une infrastructure cloud, créant des problèmes de latence et de confidentialité pour les applications du monde réel comme la robotique d'entrepôt ou les caméras de commerce intelligent. Quand j'ai couvert le modèle 350M de Liquid AI le mois dernier, leur architecture hybride surpassait déjà des rivaux plus larges. Ajouter la détection d'objets à un modèle 450M qui fonctionne localement change le calcul de déploiement pour les applications de vision par ordinateur qui nécessitent à la fois vitesse et sorties structurées.

Les détails techniques montrent des choix d'ingénierie réfléchis : encodeur de vision SigLIP2 avec résolution native 512×512, encodage miniature pour le contexte global pendant le pavage d'images, et limites de tokens d'image ajustables pour les compromis vitesse-qualité sans réentraînement. Le support d'appel de fonctions suggère qu'ils ciblent les workflows agentiques où la vision alimente des actions structurées. Cependant, la limite de résolution 512×512 et la fenêtre de contexte 32K contraignent les cas d'usage comparé aux alternatives basées sur le cloud.

Pour les développeurs construisant des applications de vision, cela représente un terrain d'entente pratique entre capacité et contraintes de déploiement. L'inférence sous 250ms ouvre des cas d'usage interactifs, tandis que la prédiction de boîtes englobantes permet l'extraction de données structurées des flux d'images. Le vrai test sera comment il performe sur des tâches spécifiques au domaine après fine-tuning, surtout considérant les revendications de Liquid AI sur l'efficacité d'adaptation.

Le modèle de vision 450M de Liquid AI obtient la détection d'objets, fonctionne sous 250ms en edge

Plus de nouvelles