Gerganov 在 2023 年 3 月發布了 llama.cpp,就在 Meta 發布 LLaMA 後的幾天。最初版本可以使用 4 位元量化在 MacBook 上執行 LLaMA-7B——這在之前被認為是不切實際的。專案迅速成長,增加了對數十種架構(Mistral、Qwen、Phi、Gemma、Command-R)的支援,多種量化方法(GGML,然後是 GGUF),以及對 Metal(Apple)、Vulkan(跨平台 GPU)和 CUDA(NVIDIA)的硬體加速。
選擇 C/C++ 是刻意的:沒有 Python 執行環境、沒有 PyTorch 依賴、最低的系統需求。這使得部署到嵌入式系統、行動裝置和沒有 GPU 基礎設施的伺服器成為可能。二進位檔案是自包含的——下載可執行檔、下載 GGUF 模型檔案,然後你就可以執行了。這種簡單性使得本機 AI 生態系統能夠如此迅速地成長。
llama.cpp 包含一個伺服器模式,提供與 OpenAI 相容的 API,使其成為開發中雲端 API 的直接替代品。許多開發者在本機使用 llama.cpp 伺服器進行開發和測試,只在生產環境中切換到雲端 API。這使開發成本接近零,並避免在開發期間將敏感資料發送到外部服務。