在終端使用者的裝置上(手機、筆電、汽車)而非雲端上運行 AI。隱私、零延遲、離線可用。
記憶體限制:3B 模型 4-bit 量化 ≈ 1.5 GB(手機可行),7B ≈ 4 GB(筆電可行)。Apple Silicon 的統一記憶體使本地 LLM 成為可能。現代晶片中的 NPU(神經處理單元)。