SambaNova：定義與含義 — AI 維基

專門設計自訂晶片（RDUs）用於 AI 工作負載的人工智慧硬體公司。他們的 SambaNova Cloud 提供目前最快的推理速度，與 Groq 在「speed-first」方法上競爭。

為什麼重要

SambaNova 的重要性在於 NVIDIA 應該不是 AI 計算領域中唯一的玩家，而且需要有人證明專為 AI 設計的晶片能夠在現實市場中競爭，而不僅僅停留在研究論文裡。他們的 RDU 架構證明了當你專門為神經網絡工作負載設計矽晶片時，可以實現有意義的效能提升，而他們的雲端推理服務則讓開發者一窺後 GPU 時代 AI 基礎設施的樣貌。無論 SambaNova 本身是否會成為主導的替代方案，它與 Groq、Cerebras 以及雲端供應商的客製化晶片所帶來的競爭壓力，對一個無法負擔永久硬體單一文化的產業來說，都是健康的。

深度解析

SambaNova 於 2017 年由 Rodrigo Liang、Christopher Ré 與 Kunle Olukotun 在史丹佛大學創立。Ré 是麥克阿瑟獎學家，也是現代機器學習領域最具影響力的人物之一（他後續在狀態空間模型與資料導向 AI 方面的研究催生了多家公司），而 Olukotun 則是晶片架構的先驅，協助發展了多核處理器的概念。創立的假設很直接但雄心勃勃：儘管 NVIDIA 的 GPU 主導市場，但它們並未專門為 AI 工作負載設計。從頭開始為 AI 打造的晶片——針對神經網絡所需的特定資料流模式、記憶體存取需求與平行處理進行最佳化——可提供每瓦與每美元極大的性能提升。SambaNova 筹集了超過 11 億美元的風險投資，包括 2021 年的 6.76 億美元 D 輪融資，使其成為歷史上資金最充足的 AI 硬體新創公司之一。

可重新配置的數據流單元

SambaNova 的核心技術是可重新配置的數據流單元（Reconfigurable Dataflow Unit，RDU），最近的 SN40L 晶片即為例證。與 GPU 不同，GPU 是透過傳統的取指令-解碼-執行週期來執行指令，並針對平行工作負載進行調整，而 RDU 是數據流架構——計算是在資料流經晶片時進行，處理模式會根據每個模型重新配置，而非遵循固定的指令流。理論上，這消除了在通用硬體上運行神經網絡時的許多低效率。SN40L 特別設計了三層記憶體階層，可於晶片記憶體中存放比一般 GPU 更大的模型，減少昂貴的晶片外記憶體傳輸，這正是推論的瓶頸。SambaNova 声稱其架構可以與 NVIDIA 最快的產品競爭，甚至超越，以 Llama 2 70B 和 Llama 3.1 405B 等模型為例，獨立的基準測試通常也支持這一點。

轉向雲端推論

SambaNova 的商業模式已經歷重大演變。最初，公司銷售本地部署的硬體設備——運行 RDU 的完整機架系統——給大型企業和政府機構。這些 DataScale 系統在國家實驗室、金融機構和國防應用中找到客戶，這些領域中數據主權和性能比成本更重要。但企業硬體市場證明具有挑戰性：銷售週期長、整合複雜，且客戶往往尚未準備好以足以支持定制硬體的規模部署 AI。2023 年，SambaNova 轉向雲端推論，推出 SambaNova Cloud 作為 API 服務，讓開發人員可以在不購買硬體的情況下訪問運行於 RDU 上的模型。這使他們直接與另一家 AI 晶片新創公司 Groq 競爭，Groq 以「最快的推論」為其特色，也與主要雲端供應商的推論服務競爭。

速度作為賣點

雲端推論的轉向確立了 SambaNova 的定位：速度作為主要賣點。他們的 API 一直提供業界最快的每秒處理 token 數量，特別是在較大模型上，RDU 架構的記憶體階層優勢最為明顯。他們提供對 Llama 和 Qwen 等熱門開源模型的免費層存取，利用速度作為吸引開發人員的誘因，進而轉換為付費使用。這種策略與 Groq 使用 LPU 晶片所做的方式相似，在「快速推論」利基市場中形成雙頭馬競賽。對於開發延遲敏感應用程式（如即時代理、語音助手、互動式程式設計工具）的開發者而言，速度差異不僅僅是漂亮的基準數字，而是真正影響用戶體驗的產品差異化因素。

NVIDIA 問題

每一家 AI 晶片新創公司最終都面臨相同的挑戰：NVIDIA 的生態系統極其深廣，CUDA 是 AI 開發的實際標準。SambaNova 透過專注於推論而非訓練來緩衝這個問題——推論工作負載更標準化，且較少依賴 CUDA 的完整軟體堆疊——並透過預設支援熱門開源模型，讓開發

SambaNova