La startup surcoreana Xcena está construyendo MX1, un chip de compute near-memory que se conecta a la DRAM vía CXL (Compute Express Link) y coloca miles de pequeños cores RISC-V junto a la memoria en lugar de transportar datos a un CPU o GPU. La tesis arquitectónica es la parte que vale la lectura sin importar el titular de financiamiento: la restricción que ata a la IA para una gran parte del trabajo de inferencia es el ancho de banda de memoria, no el compute, y la respuesta correcta es traer el compute a los datos. MX1 apunta específicamente a la gestión del KV-cache (el store del contexto de conversación previo), preprocessing, y data caching — las operaciones memory-bound que actualmente corren en CPUs y estancan el pipeline. El estado honesto al frente: MX1 es un prototipo, no se ha enviado silicio, el writeup da cero números de ancho de banda o benchmark, la producción en masa está prevista para fines-2026 y los ingresos para 2027. Es una señal de dirección arquitectónica, no un producto que puedas evaluar.
La forma técnica, según lo divulgado: miles de cores RISC-V deliberadamente mantenidos pequeños y eficientes, una jerarquía de memoria interna custom, un bus de interconexión custom, y un controlador DRAM custom — integración vertical en lugar de ensamblar partes off-the-shelf. La afirmación es consolidación de infraestructura, "lo que requería 10 servidores podría potencialmente correr en solo uno", que es el tipo de número que no significa nada sin una definición de carga y debería leerse como un objetivo, no un resultado. La elección CXL es la apuesta arquitectónica load-bearing: CXL permite que el acelerador near-memory se siente en el bus de memoria como dispositivo coherente, así el KV-cache puede vivir junto a los cores que lo gestionan en lugar de ser copiado a través de PCIe a un GPU. Si la latencia CXL y la madurez del ecosistema hacen eso práctico a escala inference-serving es exactamente la pregunta abierta que el prototipo no ha respondido.
La lectura de ecosistema conecta al hilo de economía de inferencia que se ha estado construyendo toda la semana: el KV-cache es el devorador de memoria en serving long-context y agentic, y los motores que ganan esa carga (ganancias de decoding especulativo, tasas de hit de prefix-cache) están todos peleando el mismo muro de memoria desde el lado software. La apuesta de Xcena es la versión lado-hardware — desagregar la stack de inferencia para que las partes memory-bound (KV-cache, preprocessing) corran en silicio near-memory barato mientras el GPU se reserva para los matmuls compute-bound. Si el offload near-memory de KV-cache se vuelve una categoría real, cambia la estructura de costo de la inferencia long-context más que otra generación de GPU. El riesgo es triple: la latencia CXL podría comerse las ganancias, el ecosistema software para apuntar a aceleradores near-memory apenas existe, y NVIDIA podría absorber la función en su propia jerarquía de memoria antes de que una startup envíe.
Si arquitectas infraestructura de inferencia el lunes por la mañana: no hay nada que desplegar aquí por dos años, pero el split memory-bound-vs-compute-bound es el framing a adoptar ahora — perfila qué fracción de tu costo de inferencia es KV-cache y preprocessing versus matmul real, porque ese ratio determina si el compute near-memory te ayudaría alguna vez. Si inviertes en o construyes hardware IA: la señal a rastrear es si alguien envía offload near-memory de KV-cache con benchmarks reales, porque la tesis es sólida y la ejecución no está probada. Vigila silicio enviado y un cara-a-cara contra HBM-on-GPU antes de tratar esto como más que una dirección.
