A startup sul-coreana Xcena está construindo MX1, um chip de compute near-memory que conecta à DRAM via CXL (Compute Express Link) e coloca milhares de pequenos cores RISC-V junto à memória em vez de transportar dados para um CPU ou GPU. A tese arquitetônica é a parte que vale a leitura independente da manchete de financiamento: a restrição que amarra a IA para uma grande parte do trabalho de inferência é a largura de banda de memória, não o compute, e a resposta certa é trazer o compute aos dados. MX1 mira especificamente a gestão do KV-cache (o store do contexto de conversa anterior), preprocessing, e data caching — as operações memory-bound que atualmente rodam em CPUs e estagnam o pipeline. O status honesto na frente: MX1 é um protótipo, nenhum silício foi enviado, o writeup dá zero números de largura de banda ou benchmark, a produção em massa está prevista para fim-2026 e a receita para 2027. É um sinal de direção arquitetônica, não um produto que você pode avaliar.

A forma técnica, conforme divulgada: milhares de cores RISC-V deliberadamente mantidos pequenos e eficientes, uma hierarquia de memória interna custom, um barramento de interconexão custom, e um controlador DRAM custom — integração vertical em vez de montar partes off-the-shelf. A afirmação é consolidação de infraestrutura, "o que exigia 10 servidores poderia potencialmente rodar em apenas um", que é o tipo de número que não significa nada sem uma definição de carga e deveria ser lido como um alvo, não um resultado. A escolha CXL é a aposta arquitetônica load-bearing: CXL deixa o acelerador near-memory se sentar no barramento de memória como dispositivo coerente, então o KV-cache pode viver junto aos cores que o gerenciam em vez de ser copiado através de PCIe para um GPU. Se a latência CXL e a maturidade do ecossistema tornam isso prático em escala inference-serving é exatamente a pergunta aberta que o protótipo não respondeu.

A leitura de ecossistema conecta ao fio de economia de inferência que vem sendo construído a semana toda: o KV-cache é o devorador de memória em serving long-context e agentic, e os motores que ganham essa carga (ganhos de decoding especulativo, taxas de hit de prefix-cache) estão todos lutando o mesmo muro de memória do lado software. A aposta da Xcena é a versão lado-hardware — desagregar a stack de inferência para que as partes memory-bound (KV-cache, preprocessing) rodem em silício near-memory barato enquanto o GPU é reservado para os matmuls compute-bound. Se o offload near-memory de KV-cache se tornar uma categoria real, muda a estrutura de custo da inferência long-context mais que outra geração de GPU. O risco é triplo: a latência CXL poderia comer os ganhos, o ecossistema software para mirar aceleradores near-memory mal existe, e a NVIDIA poderia absorver a função em sua própria hierarquia de memória antes de uma startup enviar.

Se você arquiteta infraestrutura de inferência segunda de manhã: não há nada para implantar aqui por dois anos, mas o split memory-bound-vs-compute-bound é o framing a adotar agora — perfile qual fração do seu custo de inferência é KV-cache e preprocessing versus matmul real, porque essa proporção determina se o compute near-memory te ajudaria algum dia. Se você investe em ou constrói hardware IA: o sinal a rastrear é se alguém envia offload near-memory de KV-cache com benchmarks reais, porque a tese é sólida e a execução não está provada. Observe silício enviado e um cara-a-cara contra HBM-on-GPU antes de tratar isso como mais que uma direção.