Ahora puedes ejecutar un modelo de IA de un billon de parametros sin tocar la nube, en un cluster de Macs sobre un escritorio. LM Studio dijo que trabajo con Apple para ejecutar Kimi K2.6, el modelo de pesos abiertos de Moonshot con alrededor de un billon de parametros, en cuatro Mac Studios enlazados entre si, con acceso remoto seguro, usando una version preliminar de su software. La demostracion, mostrada en torno a la WWDC 2026 de Apple, es una senal de cuanto ha avanzado la inferencia local y en las propias instalaciones de modelos a escala frontera.

El montaje se apoya en dos cosas hacia las que Apple ha venido construyendo en silencio. La primera es la memoria: cuatro Mac Studios unidos por Thunderbolt 5 agrupan cerca de 1,5 terabytes de memoria unificada, suficiente para alojar los pesos de un modelo de un billon de parametros que de otro modo exigiria un rack de GPU de centro de datos. La segunda es una nueva capacidad, RDMA sobre Thunderbolt 5 en macOS, que permite a las maquinas mover datos entre si con la rapidez suficiente para comportarse como una sola. El rendimiento reportado para Kimi K2 en un cluster asi se situa alrededor de 25 tokens por segundo, util para trabajo real, con un costo de hardware de unos 40.000 $, que es mucho para un individuo y muy poco al lado del servidor GPU equivalente.

Para Apple, esto es un movimiento de posicionamiento. En la WWDC 2026 presento el Mac Studio como una estacion de trabajo de IA local seria, citando grandes mejoras en la generacion de tokens en sus chips mas recientes ejecutando modelos a traves de LM Studio. Para el mundo de los pesos abiertos, es algo mas grande: el hecho de que un modelo de tamano frontera como Kimi K2.6 se distribuya con pesos abiertos es lo que hace posible ejecutarlo en tu propio hardware. Los modelos cerrados de los grandes laboratorios no se pueden descargar a un escritorio, los abiertos si, y esa diferencia es ahora la diferencia entre alquilar inteligencia y poseer la maquina que la ejecuta.

La relevancia conecta con la historia de costos que se desarrolla en todas las demas partes de la IA. La inferencia en la nube se mide, y la factura escala con cuanto la usas; un modelo que corre localmente tiene un costo inicial fijo y ningun contador por token. Para trabajo sensible a la privacidad o de alto volumen, esa cuenta empieza a favorecer al escritorio. Las advertencias honestas: 25 tokens por segundo esta bien para un solo usuario pero no para servir a muchos, 40.000 $ es una barrera real, y las afirmaciones de rendimiento del proveedor deben leerse con el escepticismo habitual. Pero la direccion es dificil de pasar por alto. La frontera solia vivir solo en centros de datos, y un billon de parametros ahora cabe, despacio pero de verdad, en un cluster de computadoras que puedes comprar y desconectar.