Apple esta haciendo una apuesta concentrada por la inteligencia artificial que se ejecuta en tu dispositivo en lugar de en un centro de datos, y dos hilos de sus anuncios en la WWDC muestran cuan deliberada es. Uno es un nuevo framework para desarrolladores llamado Core AI. El otro es un detalle mas silencioso sobre como el proximo Siri usa realmente Gemini de Google, y juntos describen a una compania que intenta ser dueno de los modelos en su hardware mientras toma prestado el de un rival solo para ensenar al suyo.

Core AI es el sucesor de Core ML, el longevo framework de aprendizaje automatico en el dispositivo de Apple, y esta construido para la era generativa. Permite a las apps ejecutar grandes modelos de lenguaje e IA generativa enteramente en el dispositivo, sin dependencia de servidor y sin costos de tokens, soportando tanto modelos personalizados de PyTorch como modelos de codigo abierto preoptimizados a traves de una API segura en memoria de Swift. Apple dice que abarca un amplio rango, desde compactos modelos de vision de 3.000 millones de parametros hasta grandes modelos de razonamiento de hasta 70.000 millones de parametros, con compilacion anticipada para tiempos de carga instantaneos y optimizaciones de IA generativa como la gestion de KV-cache, la decodificacion autorregresiva y kernels de Metal 4 disenados especificamente para la atencion. Se ejecuta en iPhone, iPad, Mac y Apple Vision Pro, ya esta disponible en la beta de Xcode 27 para desarrolladores y llegara a las versiones de produccion en el otono.

El detalle sobre Siri es mas sutil y, en cierto modo, mas revelador. Segun un analisis de lo que la keynote dejo sin decir, Apple usa Gemini como maestro en lugar de como motor. Gemini genera datos de entrenamiento y senales de aprendizaje que se destilan en los propios Foundation Models de tercera generacion de Apple, un paso que ocurre una sola vez durante el desarrollo, mientras que los modelos que realmente responden a tus solicitudes se ejecutan en el dispositivo. A Gemini se le recurre en la nube solo como respaldo, para la minoria de solicitudes que superan lo que el modelo en el dispositivo puede manejar.

Esa distincion es la clave de todo. Un maestro en el momento de entrenamiento es una dependencia unica y reversible, del tipo que Apple podria reemplazar o de la que podria desengancharse mas adelante, mientras que un motor en tiempo de ejecucion seria un bloqueo estructural que toca la privacidad, la latencia y el costo de cada consulta. Leido asi, el titular de que Apple ahora depende de Gemini exagera las cosas: es una jerarquia de concesiones en lugar de una capitulacion, en la que Apple conserva la parte que mas importa, la inferencia en el dispositivo con sus propios modelos, y cede solo un respaldo en la nube. El acuerdo llega sin cifras reveladas, aunque The Information ha informado, sin que Apple lo confirme, que parte de esa inferencia en la nube podria ejecutarse en chips B200 de Nvidia dentro de los centros de datos de Google.

La razon por la que esto vale la pena seguir es la direccion que senala. Ejecutar localmente modelos desde unos pocos miles de millones de parametros hasta 70.000 millones, con costo cero de tokens, y entrenarlos destilando conocimiento de modelos de frontera mas grandes, es una de las apuestas mas trascendentales en la IA en este momento, porque devuelve la capacidad al dispositivo y la saca de la nube medida. Apple tiene el silicio y la escala para llevarlo mas lejos que casi cualquiera. Las advertencias honestas son que la produccion no llega hasta el otono, que el rendimiento en el mundo real de los grandes modelos en el dispositivo es la pregunta abierta, y que maestro y no motor es en parte el propio encuadre de Apple de una relacion que preferiria minimizar. Pero los modelos propios en el dispositivo ensenados por destilacion son exactamente hacia donde se dirige gran parte del trabajo interesante, y Apple acaba de dar a los desarrolladores el framework para construir sobre ello.