Zubnet AIApprendreWiki › Edge AI
Infrastructure

Edge AI

On-Device AI, Local AI
Faire tourner des modèles IA directement sur les appareils utilisateurs — téléphones, laptops, capteurs IoT, voitures — plutôt que dans le cloud. L'Edge AI veut dire que tes données ne quittent jamais ton appareil, la latence est quasi nulle (pas d'aller-retour réseau), et le modèle marche hors ligne. Apple Intelligence, Gemini Nano sur l'appareil de Google, et les runners LLM locaux comme llama.cpp et Ollama sont tous de l'Edge AI.

Pourquoi c'est important

L'Edge AI, c'est là où vie privée, latence et coût se croisent. L'IA cloud veut dire envoyer tes données sur le serveur de quelqu'un d'autre, attendre une réponse et payer par token. L'Edge AI veut dire une inférence instantanée, privée et gratuite-après-téléchargement. Le compromis est la taille du modèle : les appareils edge ont une mémoire limitée, donc les modèles on-device sont plus petits et moins capables que les modèles cloud. Mais pour beaucoup de tâches, un modèle 3B rapide sur ton téléphone bat un modèle 400B lent dans un data center.

Deep Dive

The key constraint for edge AI is memory. A phone might have 6–12 GB of RAM shared between the OS, apps, and the model. A laptop might have 8–32 GB. This limits model size: a 3B parameter model at 4-bit quantization needs about 1.5 GB, feasible on a phone. A 7B model needs about 4 GB, feasible on a decent laptop. Anything larger requires aggressive quantization or offloading to disk (slow).

The Apple Silicon Effect

Apple's M-series chips (M1–M4) with unified memory architecture made edge AI practical for laptops. Unlike discrete GPU setups where model weights must fit in VRAM, Apple Silicon shares memory between CPU and GPU, so a MacBook with 32 GB unified memory can run a 24B model at 4-bit quantization smoothly. This, combined with llama.cpp's Metal optimization, created the local LLM movement.

Beyond Text

Edge AI isn't limited to language models. On-device speech recognition (Whisper), image classification, real-time translation, and predictive text all run locally. The trend is toward NPUs (Neural Processing Units) — dedicated AI accelerator chips built into phones and laptops that handle AI workloads more efficiently than general-purpose CPU/GPU. Apple's Neural Engine, Qualcomm's Hexagon, and Intel's NPU are all examples.

Concepts liés

← Tous les termes
← Dual Use ElevenLabs →