A Apple esta fazendo uma aposta concentrada em inteligencia artificial que roda no seu dispositivo em vez de em um data center, e dois fios de seus anuncios na WWDC mostram o quanto isso e deliberado. Um e um novo framework para desenvolvedores chamado Core AI. O outro e um detalhe mais discreto sobre como a proxima Siri de fato usa o Gemini do Google, e juntos eles descrevem uma empresa tentando ser dona dos modelos em seu hardware enquanto toma emprestado o de um rival apenas para ensinar os seus proprios.

O Core AI e o sucessor do Core ML, o consagrado framework de aprendizado de maquina no dispositivo da Apple, e foi construido para a era generativa. Ele permite que aplicativos executem grandes modelos de linguagem e IA generativa inteiramente no dispositivo, sem dependencia de servidor e sem custos de tokens, dando suporte tanto a modelos PyTorch personalizados quanto a modelos de codigo aberto pre-otimizados por meio de uma API Swift segura em memoria. A Apple diz que ele cobre uma ampla faixa, desde modelos de visao compactos de 3 bilhoes de parametros ate grandes modelos de raciocinio de ate 70 bilhoes de parametros, com compilacao antecipada para tempos de carregamento instantaneos e otimizacoes de IA generativa como gerenciamento de KV-cache, decodificacao autorregressiva e kernels Metal 4 feitos sob medida para atencao. Ele roda em iPhone, iPad, Mac e Apple Vision Pro, ja esta disponivel na beta do Xcode 27 para desenvolvedores, e deve chegar em versoes de producao no outono.

O detalhe da Siri e mais sutil e, de certo modo, mais revelador. De acordo com uma analise do que a keynote deixou de dizer, a Apple usa o Gemini como professor em vez de motor. O Gemini gera dados de treinamento e sinais de aprendizado que sao destilados nos proprios Foundation Models de terceira geracao da Apple, um passo que acontece uma unica vez durante o desenvolvimento, enquanto os modelos que de fato respondem as suas solicitacoes rodam no dispositivo. O Gemini e acessado na nuvem apenas como recurso alternativo, para a minoria de solicitacoes que excedem o que o modelo no dispositivo consegue tratar.

Essa distincao e o ponto central. Um professor em tempo de treinamento e uma dependencia unica e reversivel, do tipo que a Apple poderia trocar ou abandonar mais tarde, ao passo que um motor em tempo de execucao seria um aprisionamento estrutural que afeta a privacidade, a latencia e o custo de cada consulta. Lida assim, a manchete de que a Apple agora depende do Gemini exagera as coisas: e uma hierarquia de concessoes em vez de uma capitulacao, com a Apple mantendo a parte que mais importa, a inferencia no dispositivo em seus proprios modelos, e cedendo apenas um recurso alternativo na nuvem. O arranjo vem sem numeros divulgados, embora o The Information tenha relatado, sem a Apple confirmar, que parte dessa inferencia na nuvem pode rodar em chips Nvidia B200 dentro de data centers do Google.

A razao pela qual isso vale a pena acompanhar e a direcao que ela aponta. Executar modelos de alguns bilhoes de parametros ate 70 bilhoes localmente, com custo zero de tokens, e treina-los destilando conhecimento de modelos de fronteira maiores, e uma das apostas mais consequentes na IA neste momento, porque traz a capacidade de volta para o dispositivo e para fora da nuvem tarifada. A Apple tem o silicio e a escala para levar isso mais longe do que quase qualquer um. As ressalvas honestas sao que a producao so chega no outono, o desempenho no mundo real de grandes modelos no dispositivo e a questao em aberto, e professor-nao-motor e em parte o enquadramento da propria Apple para uma relacao que ela preferiria minimizar. Mas modelos proprios no dispositivo ensinados por destilacao e exatamente para onde grande parte do trabalho interessante esta caminhando, e a Apple acabou de dar aos desenvolvedores o framework para construir sobre isso.