L'approche d'Apple est en couches : un modèle sur appareil d'environ 3 milliards de paramètres gère les tâches rapides (réponses intelligentes, édition de texte, résumé basique) entièrement sur le Neural Engine de l'appareil. Les tâches plus complexes vont au Private Cloud Compute d'Apple — des serveurs tournant sur Apple Silicon qui traitent les requêtes sans conserver les données utilisateur et sont soumis à des audits de sécurité indépendants. Les tâches au-delà des capacités d'Apple (comme les questions de recherche approfondie) peuvent être routées vers des modèles tiers avec la permission explicite de l'utilisateur.
L'architecture de confidentialité d'Apple pour l'IA cloud est techniquement ambitieuse : les serveurs tournent sur Apple Silicon (même architecture que les appareils), le logiciel est publié pour vérification indépendante, les requêtes sont chiffrées de bout en bout, et Apple affirme ne pas avoir la capacité d'accéder aux données utilisateur même sur ses propres serveurs. C'est un modèle de confidentialité significativement différent de « faites-nous confiance avec vos données » — c'est « vérifiez que nous ne pouvons pas voir vos données ». Si cela tient pleinement ses promesses reste sujet à la recherche en sécurité en cours.