Zubnet AI学习Wiki › AI 基础设施
基础设施

AI 基础设施

别名:AI 基建、ML 基础设施
用于大规模训练和部署AI模型所需的全栈硬件、软件和服务。这包括GPU和定制芯片、数据中心、网络、存储、编排平台(Kubernetes、Slurm)、模型服务框架(vLLM、TensorRT)以及将所有这些打包的云服务提供商。AI基础设施—连接模型架构的抽象世界与电网和冷却系统的具体世界。

为什么重要

基础设施决定了可行的范围。之所以只有少数公司能够训练前沿模型,并不是因为缺乏创意——而是因为缺乏基础设施。而AI对终端用户所产生的成本则直接归因于GPU的可用性、数据中心的容量以及推理服务的效率。

深度解析

AI基础设施与传统云计算完全不同,尽管它们都运行在相同的数据中心内。一个常规的网页应用是CPU密集型且内存占用低的——几个核心,几个GB的RAM,可能还有一个规模适中的数据库。AI工作负载则完全颠覆了这一配置。训练像GPT-4或Claude这样的前沿模型需要数千个GPU并行运行数周,通过超高速互连(InfiniBand或NVLink)连接,以同步梯度而不会造成瓶颈。仅网络部分的成本就可能超过传统设置中服务器的成本。这就是为什么NVIDIA(拥有DGX SuperPOD系统)以及CoreWeave和Lambda Labs等云服务提供商围绕GPU优先的基础设施构建了整个业务,这种架构在其他任何场景下都显得荒谬。

训练堆栈

训练基础设施主要由几种硬件配置主导。NVIDIA的H100和H200 GPU是主力,通常以每节点8个GPU(通过NVLink连接)的形式部署,数百或数千个节点通过InfiniBand网络连接。谷歌有其TPU机群(v5e和v6),亚马逊有Trainium芯片,微软有其定制的Maia加速器——但NVIDIA仍然占据约80%的AI训练市场。在软件方面,分布式训练框架如DeepSpeed、Megatron-LM和PyTorch FSDP处理并行策略(数据并行、张量并行、流水线并行),使超出单个GPU容量的模型能够分布在整个集群中。调度通常运行于Kubernetes(带有GPU感知的调度)或Slurm(用于传统HPC风格的批处理工作负载)。整个堆栈——从硅芯片到调度器——必须协同工作,任何一个节点缓慢或网络连接不稳定都可能导致千个GPU训练运行的性能下降。

推理是另一回事

如果训练是一场建筑工程,推理则像一家餐厅厨房——它关注的是吞吐量、延迟和每请求的成本。推理基础设施有其专用工具:vLLM和TensorRT-LLM用于通过连续批处理和PagedAttention等技术服务大型语言模型;Triton推理服务器用于多模型服务;以及将模型从16位精度压缩到4位精度的量化工具,使其能够运行在更便宜的硬件上。经济性差异显著:在H100上以全精度运行模型可能每百万个token成本3美元,但使用量化版本在消费级GPU或定制推理芯片上运行可能将成本降至0.2美元以下。Groq(其LPU芯片)、Cerebras(晶圆级引擎)和SambaNova(数据流架构)等公司都押注于专用推理硬件最终将超越GPU在服务方面的成本优势。

自建还是购买的决策

对于大多数组织而言,AI基础设施不是自己构建的东西,而是租用的。超大规模云服务商(AWS、Azure、Google Cloud)提供按需GPU实例,而CoreWeave、Lambda和DataCrunch等专业提供商则提供更优惠的GPU价格并减少额外功能。只有在大规模时,本地GPU集群才有意义:Meta运营超过60万个H100,xAI的孟菲斯数据中心在一个屋顶下运行10万个GPU。低于这个规模时,管理GPU硬件的操作开销——处理热节流、GPU故障(H100每年故障率约为1–3%)、驱动更新和电源管理——很少能证明资本支出的合理性。对于大多数团队而言,真正的基础设施技能不是构建集群,而是选择合适的提供商、优化批处理大小,并知道何时使用可在单个GPU上运行的小型模型,而不是一味增加硬件投入。

未来趋势

基础设施格局正在迅速变化。定制芯片日益普及——目前所有主要云服务商都拥有或正在开发自己的AI芯片,以追逐NVIDIA的利润率。推理优化硬件正与训练硬件分离,因为工作负载特征差异巨大。边缘推理正在增长,模型在手机(苹果的Neural Engine、高通的Hexagon)和笔记本电脑(英特尔的NPU、AMD的XDNA)上运行,而非云端。AI代理(每个任务进行多次模型调用的系统)的兴起正在以超出当前容量的方式增加推理需求。目前控制AI基础设施的公司控制着AI进步的速度,这正是微软、谷歌和亚马逊每年在数据中心上各自投入超过500亿美元的原因。

相关概念

← 所有术语
← AI 治理 AI 定价 →
ESC