Liquid AI LFM2.5-8B-A1B: MoE on-device, 1.5B activos, 253 tok/s en CPU M5 Max

Liquid AI lanzó LFM2.5-8B-A1B, un modelo Mixture-of-Experts open-weight que activa solo 1.5B de sus 8.3B parámetros totales por token. El número que importa para constructores es el throughput on-device: 253 tokens/seg en un CPU de laptop M5 Max bajo 6GB de memoria, ~30 tokens/seg en móvil, y 18.5K tokens/seg en un H100 (más de 1.6B tokens/día a alta concurrencia). Es el movimiento de economía de despliegue — pagas el costo de inferencia de 1.5B activos mientras te apoyas en un pool de conocimiento de 8.3B parámetros, en hardware que cabe en una mochila. Los pesos están en HuggingFace bajo la licencia LFM1.0 con checkpoints base y post-trained, ejecutables hoy en llama.cpp, MLX, vLLM, y SGLang.

La arquitectura es híbrida, no un MoE transformer vainilla. De 24 capas, 18 son bloques de convolución LIV double-gated y 6 son capas grouped-query attention, con routing MoE encima — el diseño conv-heavy es lo que mantiene el costo en params activos y la huella de memoria suficientemente bajos para el edge. La ventana de contexto se duplicó a 131,072 desde el 32K del predecesor; el vocabulario creció a 128K tokens con ganancias de compresión tuneadas para Hindi, Thai, Vietnamita, Indonesio, y Árabe. Los saltos de benchmark sobre LFM2-8B-A1B son grandes: IFEval 79.44 → 91.84 (igualando a Gemma-4-26B pese a muchos menos params activos), MATH500 74.80 → 88.76, tasa de no-alucinación AA-Omniscience 7.46 → 63.47, Tau² Telecom 13.60 → 88.07. Las limitaciones honestas las declara Liquid: el pequeño conteo de params activos capa la capacidad de conocimiento, así que no es adecuado para programación pesada o trabajo knowledge-intensive sin retrieval augmentation, y es text-only — sin visión ni audio.

La lectura de ecosistema: el MoE-on-edge es ahora una categoría real distinta de los modelos dense small. Qwen, Gemma, y Phi compiten en dense sub-10B; la apuesta de LFM2.5-8B-A1B es que la activación sparse te da un techo de calidad más alto al mismo costo de inferencia, lo cual es el tradeoff correcto específicamente para on-device donde el ancho de banda de memoria, no el compute, es la restricción que ata. El número de 1.5B activos es lo que le permite correr en un teléfono a velocidad usable — un modelo dense 8.3B no lo haría. Para el agent stack, un modelo on-device con tool calling y contexto 128K cambia la arquitectura de lo que puede correr sin round-trip cloud: agentes locales que leen documentos largos, llaman herramientas, y razonan, con la nube reservada para las llamadas knowledge-heavy que el modelo mismo marca como fuera de su profundidad (eso es lo que el salto de no-alucinación a 63.47 mide realmente — el modelo sabiendo cuándo no sabe).

Si envías IA edge u on-device el lunes por la mañana: los números de 253-tok/s-en-CPU-laptop y ~30-tok/s-en-móvil son los que benchmarkear contra tu propio hardware objetivo, y la licencia LFM1.0 es lo que leer antes de asumir uso comercial. Si construyes infra de agentes: empareja esto con una capa RAG para las tareas de conocimiento que marca como fuera de profundidad, y tienes un agente local-first que solo toca la nube cuando debe. La noticia estructural es que el sparse on-device venció al dense on-device en la frontera calidad-por-param-activo — vigila si Qwen y Gemma siguen con variantes MoE edge.

Liquid AI LFM2.5-8B-A1B: MoE on-device, 1.5B activos, 253 tok/s en CPU M5 Max

Más noticias