A Liquid AI lançou LFM2.5-8B-A1B, um modelo Mixture-of-Experts open-weight que ativa apenas 1,5B de seus 8,3B parâmetros totais por token. O número que importa para construtores é o throughput on-device: 253 tokens/seg em um CPU de laptop M5 Max sob 6GB de memória, ~30 tokens/seg em mobile, e 18,5K tokens/seg em um H100 (mais de 1,6B tokens/dia em alta concorrência). É o movimento de economia de deploy — você paga o custo de inferência de 1,5B ativos enquanto se apoia em um pool de conhecimento de 8,3B parâmetros, em hardware que cabe em uma mochila. Os pesos estão no HuggingFace sob a licença LFM1.0 com checkpoints base e post-trained, executáveis hoje em llama.cpp, MLX, vLLM, e SGLang.
A arquitetura é híbrida, não um MoE transformer vanilla. De 24 camadas, 18 são blocos de convolução LIV double-gated e 6 são camadas grouped-query attention, com routing MoE por cima — o design conv-heavy é o que mantém o custo em params ativos e a pegada de memória baixos o suficiente para o edge. A janela de contexto dobrou para 131.072 desde o 32K do predecessor; o vocabulário cresceu para 128K tokens com ganhos de compressão afinados para Hindi, Tailandês, Vietnamita, Indonésio, e Árabe. Os saltos de benchmark sobre LFM2-8B-A1B são grandes: IFEval 79,44 → 91,84 (igualando o Gemma-4-26B apesar de muito menos params ativos), MATH500 74,80 → 88,76, taxa de não-alucinação AA-Omniscience 7,46 → 63,47, Tau² Telecom 13,60 → 88,07. As limitações honestas são declaradas pela Liquid: o pequeno número de params ativos limita a capacidade de conhecimento, então não é adequado para programação pesada ou trabalho knowledge-intensive sem retrieval augmentation, e é text-only — sem visão ou áudio.
A leitura de ecossistema: o MoE-on-edge é agora uma categoria real distinta dos modelos dense small. Qwen, Gemma, e Phi competem em dense sub-10B; a aposta do LFM2.5-8B-A1B é que a ativação sparse te dá um teto de qualidade mais alto ao mesmo custo de inferência, o que é o tradeoff correto especificamente para on-device onde a largura de banda de memória, não o compute, é a restrição que amarra. O número de 1,5B ativos é o que permite rodar em um telefone a velocidade usável — um modelo dense 8,3B não rodaria. Para o agent stack, um modelo on-device com tool calling e contexto 128K muda a arquitetura do que pode rodar sem round-trip cloud: agentes locais que leem documentos longos, chamam ferramentas, e raciocinam, com a nuvem reservada para as chamadas knowledge-heavy que o próprio modelo sinaliza como fora de sua profundidade (é isso que o salto de não-alucinação para 63,47 realmente mede — o modelo sabendo quando não sabe).
Se você envia IA edge ou on-device segunda de manhã: os números de 253-tok/s-em-CPU-laptop e ~30-tok/s-em-mobile são os para benchmarkar contra seu próprio hardware alvo, e a licença LFM1.0 é o que ler antes de assumir uso comercial. Se você constrói infra de agentes: emparelhe isso com uma camada RAG para as tarefas de conhecimento que ele sinaliza como fora de profundidade, e você tem um agente local-first que só toca a nuvem quando precisa. A notícia estrutural é que o sparse on-device venceu o dense on-device na fronteira qualidade-por-param-ativo — observe se Qwen e Gemma seguem com variantes MoE edge.
