Edge AI：定義與含義 — AI 維基

在終端使用者的裝置上（手機、筆電、汽車）而非雲端上運行 AI。隱私、零延遲、離線可用。

為什麼重要

隱私 + 延遲 + 成本的交會點。在合適的任務上，手機上的 3B 模型往往勝過資料中心裡的 400B 模型。

記憶體限制：3B 模型 4-bit 量化 ≈ 1.5 GB（手機可行），7B ≈ 4 GB（筆電可行）。Apple Silicon 的統一記憶體使本地 LLM 成為可能。現代晶片中的 NPU（神經處理單元）。