Exécuter l'IA sur les appareils des utilisateurs (téléphones, laptops, voitures) au lieu du cloud. Privé, zéro latence, fonctionne hors ligne.
Pourquoi c'est important
L'intersection vie privée + latence + coût. Un modèle 3B sur ton téléphone bat souvent un 400B dans un datacenter pour les bonnes tâches.
En profondeur
Contrainte mémoire : 3B à 4 bits ≈ 1,5 Go (faisable sur téléphone), 7B ≈ 4 Go (laptop). La mémoire unifiée d'Apple Silicon a rendu les LLM locaux possibles. Les NPU (Neural Processing Units) dans les puces modernes.