llama.cpp：定義與含義 — AI 維基

一個開源 C/C++ 函式庫，用於在消費級硬體上執行 LLM 推理，由 Georgi Gerganov 創建。llama.cpp 無需 CUDA、PyTorch 或 Python 即可執行量化推理——它可以在 CPU、Apple Silicon 和消費級 GPU 上執行。它是第一個讓普通開發者和愛好者能夠在本機執行大型語言模型的工具。

為什麼重要

llama.cpp 開啟了本機 AI 革命。在此之前，執行語言模型需要昂貴的 NVIDIA GPU 和複雜的 Python 設定。llama.cpp 證明了量化模型可以在 MacBook 甚至 Raspberry Pi 上以可接受的品質執行。它催生了一個完整的生態系統（Ollama、LM Studio、kobold.cpp），使「自託管 AI」成為真正的選項。

深度解析

Gerganov 在 2023 年 3 月發布了 llama.cpp，就在 Meta 發布 LLaMA 後的幾天。最初版本可以使用 4 位元量化在 MacBook 上執行 LLaMA-7B——這在之前被認為是不切實際的。專案迅速成長，增加了對數十種架構（Mistral、Qwen、Phi、Gemma、Command-R）的支援，多種量化方法（GGML，然後是 GGUF），以及對 Metal（Apple）、Vulkan（跨平台 GPU）和 CUDA（NVIDIA）的硬體加速。

為什麼選擇 C++

選擇 C/C++ 是刻意的：沒有 Python 執行環境、沒有 PyTorch 依賴、最低的系統需求。這使得部署到嵌入式系統、行動裝置和沒有 GPU 基礎設施的伺服器成為可能。二進位檔案是自包含的——下載可執行檔、下載 GGUF 模型檔案，然後你就可以執行了。這種簡單性使得本機 AI 生態系統能夠如此迅速地成長。

伺服器模式

llama.cpp 包含一個伺服器模式，提供與 OpenAI 相容的 API，使其成為開發中雲端 API 的直接替代品。許多開發者在本機使用 llama.cpp 伺服器進行開發和測試，只在生產環境中切換到雲端 API。這使開發成本接近零，並避免在開發期間將敏感資料發送到外部服務。

llama.cpp

為什麼重要

深度解析

為什麼選擇 C++

伺服器模式

相關概念