Ollama 0.19 traz suporte MLX para Macs Apple Silicon, aproveitando o framework de machine learning da Apple para melhor utilizar a memória unificada entre CPU e GPU. A preview atualmente suporta apenas o modelo Qwen3.5-35B da Alibaba e requer pelo menos 32GB de RAM. Usuários com chips M5 obtêm aceleração adicional através dos novos Neural Accelerators da Apple, melhorando tanto a performance de tokens-per-second quanto time-to-first-token.

Isso importa porque IA local tem ganhado tração real além da turma usual de hobbyistas. A ascensão meteórica do OpenClaw a 300k estrelas no GitHub mostra que desenvolvedores estão famintos por alternativas a assinaturas API caras e rate limits. Quando você está batendo nos limites de uso do Claude ou pagando preços premium por assistência de codificação, rodar um modelo decente localmente começa a parecer atrativo—especialmente com benefícios de privacidade incluídos.

A exigência de 32GB de RAM conta a história real aqui. Isso não está democratizando IA local; está tornando viável para desenvolvedores com hardware top de linha. A arquitetura de memória unificada da Apple teoricamente deveria dar aos Macs uma vantagem sobre configurações GPU tradicionais, mas exigir configurações premium limita o impacto real. O suporte de modelo único na preview também sugere que este é trabalho de otimização em estágio inicial.

Para desenvolvedores já rodando máquinas Apple Silicon de 32GB+, isso poderia genuinamente substituir alguns serviços IA pagos para tarefas de codificação. Os ganhos de performance da otimização de memória do MLX combinados com suporte Neural Accelerator podem finalmente tornar modelos locais responsivos o suficiente para workflows reais. Mas até que o suporte se expanda além de um modelo e requisitos de hardware diminuam, isso continua sendo uma solução para early adopters bem equipados, não para a comunidade mais ampla de desenvolvedores buscando escapar da fadiga de assinatura.