SambaNova 的重要性在于,NVIDIA 不应是 AI 计算领域的唯一主导者,必须有人证明专用 AI 芯片能够在实际市场中竞争,而不仅仅停留在研究论文中。他们的 RDU 架构表明,当硅芯片专门针对神经网络工作负载进行设计时,可以实现显著的性能提升,而他们的云推理服务则让开发者一窥后 GPU 时代 AI 基础设施的可能形态。无论 SambaNova 本身是否成为主导替代方案,它与 Groq、Cerebras 以及云服务商定制芯片所施加的竞争压力——对于一个无法承受永久硬件单一化的行业来说——都是有益的。
SambaNova 由 Rodrigo Liang、Christopher Ré 和 Kunle Olukotun 于 2017 年在斯坦福大学创立。Ré 是麦克阿瑟奖获得者,也是现代机器学习领域最具影响力的代表人物之一(他后来在状态空间模型和数据驱动型 AI 方面的研究催生了多家公司),而 Olukotun 是芯片架构领域的先驱,曾帮助开发多核处理器的概念。创业的初衷简单但雄心勃勃:尽管 NVIDIA 的 GPU 占据主导地位,但它们并非专门为 AI 工作负载设计。从零开始为 AI 构建的芯片——优化神经网络所需的特定数据流模式、内存访问需求和并行性——可以在每瓦特和每美元的性能上实现显著提升。SambaNova 已筹集超过 11 亿美元的风险投资,包括 2021 年 6.76 亿美元的 D 轮融资,使其成为历史上资金最充足的 AI 硬件初创公司之一。
SambaNova 的核心技术是可重构数据流单元(RDU),最新的是 SN40L 芯片。与通过传统取指-解码-执行周期(针对并行工作负载进行调整)执行指令的 GPU 不同,RDU 是一种数据流架构——计算随着数据通过芯片流动而发生,处理模式针对每个模型重新配置,而不是遵循固定的指令流。理论上,这消除了在通用硬件上运行神经网络时固有的许多低效问题。SN40L 特别设计了三级内存层次结构,可以在片上内存中容纳比典型 GPU 大得多的模型,从而减少昂贵的片外内存传输,这是推理过程中的瓶颈。SambaNova 声称其架构可以以与 NVIDIA 最快产品相当或更快的速度运行 Llama 2 70B 和 Llama 3.1 405B 等模型,独立基准测试通常支持这些针对特定工作负载的主张。
SambaNova 的商业模式经历了重大演变。最初,该公司向大型企业和政府机构销售现场硬件设备——运行 RDU 的完整机架系统。这些 DataScale 系统在国家实验室、金融机构和国防应用中找到了客户,这些领域更关注数据主权和性能,而非成本。但企业硬件市场证明颇具挑战:漫长的销售周期、复杂的集成过程,以及客户往往尚未准备好部署需要定制硬件的 AI 规模。2023 年,SambaNova 转向基于云的推理,推出 SambaNova Cloud 作为 API 服务,开发者无需购买硬件即可访问运行在 RDU 上的模型。这使他们直接与另一家 AI 芯片初创公司 Groq 竞争,后者以“最快推理”作为其核心卖点,也与主要云提供商的推理服务展开竞争。
向云推理的转型明确了 SambaNova 的定位:速度是主要卖点。他们的 API 一直提供行业中最快的每秒 token 数率,尤其是在大型模型上,RDU 架构的内存层次结构优势最为显著。他们为流行的开源模型(如 Llama 和 Qwen)提供免费层级访问,以速度作为吸引开发者的关键,然后引导他们转向付费使用。这一策略与 Groq 通过其 LPU 芯片采取的策略相似,在“快速推理”细分领域形成了双雄竞争。对于构建延迟敏感型应用的开发者——实时代理、语音助手、交互式编码工具——速度差异不仅是漂亮的基准数字,更是影响用户体验的真实产品差异化因素。
每家 AI 芯片初创公司最终都会面临同样的挑战:NVIDIA 的生态系统极其深厚,CUDA 是 AI 开发的默认标准。SambaNova 通过专注于推理而非训练来缓解这一问题——推理工作负载更标准化,对 CUDA 完整软件堆栈的依赖更少——并通过原生支持流行的开源模型,使开发者无需学习新的工具。但公司仍面临强大的逆流。NVIDIA 不断改进自己的推理性能,云提供商也在构建定制的推理芯片(Google 的 TPUs、Amazon 的 Inferentia 和 Trainium、Microsoft 的 Maia)。SambaNova 长期成功的道路可能需要持续的性能优势,足以证明生态系统转换的成本,或与主要云提供商达成合作,将 RDU 驱动的推理整合到现有平台中。在筹集超过十亿美元资金和拥有真实技术支撑的背景下,SambaNova 确实有机会——但随着竞争加剧,证明其论点的时间窗口正在缩小。