Liquid AI a lancé LFM2.5-350M, un modèle de 350 millions de paramètres qui surpasse des modèles deux fois plus gros en abandonnant l'architecture Transformer pure pour une approche hybride. Le modèle combine 10 blocs Double-Gated Linear Input-Varying Systems (LIV) avec 6 blocs Grouped Query Attention, permettant une fenêtre de contexte de 32k tout en maintenant un usage mémoire constant au lieu de la mise à l'échelle quadratique qui afflige les Transformers standards. Entraîné sur 28 trillions de tokens—un ratio entraînement-paramètre exceptionnellement élevé—il obtient 76,96 sur les benchmarks de suivi d'instructions IFEval.

Cette sortie compte parce qu'elle défie directement les lois d'échelle "plus gros est toujours mieux" qui ont dominé le développement de l'IA. Pendant que tout le monde poursuit des modèles frontières avec des centaines de milliards de paramètres, Liquid AI prouve que l'innovation architecturale peut offrir une meilleure densité d'intelligence. L'approche hybride LIV résout le goulot d'étranglement mémoire du cache KV qui rend les grandes fenêtres de contexte coûteuses, ce qui pourrait changer notre façon de penser le déploiement d'IA à la périphérie où la mémoire et le calcul sont limités.

Ce qui est notable, c'est ce que Liquid AI ne prétend explicitement pas—ils sont francs que LFM2.5-350M n'est pas bon en maths, codage complexe, ou écriture créative. Ce positionnement honnête contraste avec le cycle de hype typique des sorties de modèles. Le modèle vise des cas d'usage spécifiques : appel d'outils, exécution de fonctions, et extraction de données structurées où le suivi d'instructions compte plus que la capacité de raisonnement général.

Pour les développeurs qui construisent des applications IA de production, ceci représente une alternative pratique aux modèles larges coûteux pour des flux de travail spécifiques. Si vous faites de l'extraction JSON, des appels API, ou du traitement de données structurées, un modèle de 350M qui tient dans des empreintes mémoire plus petites tout en gérant de longs contextes pourrait réduire significativement les coûts de déploiement. La question est de savoir si cette approche d'architecture hybride influencera les conceptions de modèles plus larges ou restera une optimisation de niche pour le déploiement périphérique.