Ollama 0.19 apporte le support MLX aux Mac Apple Silicon, exploitant le framework d'apprentissage automatique d'Apple pour mieux utiliser la mémoire unifiée entre CPU et GPU. La version préliminaire ne supporte actuellement que le modèle Qwen3.5-35B d'Alibaba et nécessite au moins 32GB de RAM. Les utilisateurs avec des puces M5 bénéficient d'une accélération supplémentaire grâce aux nouveaux Neural Accelerators d'Apple, améliorant à la fois la performance tokens-per-second et time-to-first-token.

C'est important parce que l'IA locale gagne vraiment du terrain au-delà du cercle habituel des amateurs. L'ascension météorique d'OpenClaw à 300k étoiles GitHub montre que les développeurs ont soif d'alternatives aux abonnements API coûteux et aux limites de taux. Quand vous atteignez les limites d'utilisation de Claude ou payez des prix premium pour l'assistance au codage, faire tourner un modèle décent localement commence à paraître attrayant—surtout avec les avantages de confidentialité intégrés.

L'exigence de 32GB de RAM raconte la vraie histoire ici. Ça ne démocratise pas l'IA locale; ça la rend viable pour les développeurs avec du matériel haut de gamme. L'architecture de mémoire unifiée d'Apple devrait théoriquement donner aux Mac un avantage sur les configurations GPU traditionnelles, mais exiger des configurations premium limite l'impact réel. Le support d'un seul modèle en préversion suggère aussi que c'est un travail d'optimisation précoce.

Pour les développeurs qui utilisent déjà des machines Apple Silicon de 32GB+, ça pourrait vraiment remplacer certains services IA payants pour les tâches de codage. Les gains de performance de l'optimisation mémoire de MLX combinés au support Neural Accelerator pourraient enfin rendre les modèles locaux assez réactifs pour de vrais workflows. Mais tant que le support ne s'étendra pas au-delà d'un modèle et que les exigences matérielles ne diminueront pas, ça reste une solution pour les early adopters bien équipés, pas pour la communauté plus large des développeurs cherchant à échapper à la fatigue des abonnements.