Zubnet AI學習Wiki › SambaNova
公司

SambaNova

別名:SN40L 晶片、超快速推論

專門設計自訂晶片(RDUs)用於 AI 工作負載的人工智慧硬體公司。他們的 SambaNova Cloud 提供目前最快的推理速度,與 Groq 在「speed-first」方法上競爭。

為什麼重要

SambaNova 的重要性在於 NVIDIA 應該不是 AI 計算領域中唯一的玩家,而且需要有人證明專為 AI 設計的晶片能夠在現實市場中競爭,而不僅僅停留在研究論文裡。他們的 RDU 架構證明了當你專門為神經網絡工作負載設計矽晶片時,可以實現有意義的效能提升,而他們的雲端推理服務則讓開發者一窺後 GPU 時代 AI 基礎設施的樣貌。無論 SambaNova 本身是否會成為主導的替代方案,它與 Groq、Cerebras 以及雲端供應商的客製化晶片所帶來的競爭壓力,對一個無法負擔永久硬體單一文化的產業來說,都是健康的。

深度解析

SambaNova 於 2017 年由 Rodrigo Liang、Christopher Ré 與 Kunle Olukotun 在史丹佛大學創立。Ré 是麥克阿瑟獎學家,也是現代機器學習領域最具影響力的人物之一(他後續在狀態空間模型與資料導向 AI 方面的研究催生了多家公司),而 Olukotun 則是晶片架構的先驅,協助發展了多核處理器的概念。創立的假設很直接但雄心勃勃:儘管 NVIDIA 的 GPU 主導市場,但它們並未專門為 AI 工作負載設計。從頭開始為 AI 打造的晶片——針對神經網絡所需的特定資料流模式、記憶體存取需求與平行處理進行最佳化——可提供每瓦與每美元極大的性能提升。SambaNova 筹集了超過 11 億美元的風險投資,包括 2021 年的 6.76 億美元 D 輪融資,使其成為歷史上資金最充足的 AI 硬體新創公司之一。

可重新配置的數據流單元

SambaNova 的核心技術是可重新配置的數據流單元(Reconfigurable Dataflow Unit,RDU),最近的 SN40L 晶片即為例證。與 GPU 不同,GPU 是透過傳統的取指令-解碼-執行週期來執行指令,並針對平行工作負載進行調整,而 RDU 是數據流架構——計算是在資料流經晶片時進行,處理模式會根據每個模型重新配置,而非遵循固定的指令流。理論上,這消除了在通用硬體上運行神經網絡時的許多低效率。SN40L 特別設計了三層記憶體階層,可於晶片記憶體中存放比一般 GPU 更大的模型,減少昂貴的晶片外記憶體傳輸,這正是推論的瓶頸。SambaNova 声稱其架構可以與 NVIDIA 最快的產品競爭,甚至超越,以 Llama 2 70B 和 Llama 3.1 405B 等模型為例,獨立的基準測試通常也支持這一點。

轉向雲端推論

SambaNova 的商業模式已經歷重大演變。最初,公司銷售本地部署的硬體設備——運行 RDU 的完整機架系統——給大型企業和政府機構。這些 DataScale 系統在國家實驗室、金融機構和國防應用中找到客戶,這些領域中數據主權和性能比成本更重要。但企業硬體市場證明具有挑戰性:銷售週期長、整合複雜,且客戶往往尚未準備好以足以支持定制硬體的規模部署 AI。2023 年,SambaNova 轉向雲端推論,推出 SambaNova Cloud 作為 API 服務,讓開發人員可以在不購買硬體的情況下訪問運行於 RDU 上的模型。這使他們直接與另一家 AI 晶片新創公司 Groq 競爭,Groq 以「最快的推論」為其特色,也與主要雲端供應商的推論服務競爭。

速度作為賣點

雲端推論的轉向確立了 SambaNova 的定位:速度作為主要賣點。他們的 API 一直提供業界最快的每秒處理 token 數量,特別是在較大模型上,RDU 架構的記憶體階層優勢最為明顯。他們提供對 Llama 和 Qwen 等熱門開源模型的免費層存取,利用速度作為吸引開發人員的誘因,進而轉換為付費使用。這種策略與 Groq 使用 LPU 晶片所做的方式相似,在「快速推論」利基市場中形成雙頭馬競賽。對於開發延遲敏感應用程式(如即時代理、語音助手、互動式程式設計工具)的開發者而言,速度差異不僅僅是漂亮的基準數字,而是真正影響用戶體驗的產品差異化因素。

NVIDIA 問題

每一家 AI 晶片新創公司最終都面臨相同的挑戰:NVIDIA 的生態系統極其深廣,CUDA 是 AI 開發的實際標準。SambaNova 透過專注於推論而非訓練來緩衝這個問題——推論工作負載更標準化,且較少依賴 CUDA 的完整軟體堆疊——並透過預設支援熱門開源模型,讓開發

相關概念

← 所有術語
← 狀態空間模型 Sarvam AI →
ESC