在终端设备(手机、笔记本电脑、汽车)上运行AI,而非在云端。数据隐私有保障、零延迟、可离线工作。
隐私、延迟和成本的交汇点。一个手机上的3B模型在适合的任务上往往胜过数据中心里的400B模型。
内存约束:3B模型4位量化约1.5GB(手机可行),7B约4GB(笔记本电脑可行)。Apple Silicon的统一内存使本地LLM成为可能。现代芯片中的NPU(神经处理单元)。