AI 基础设施：定义与含义 — AI 维基

用于大规模训练和部署AI模型所需的全栈硬件、软件和服务。这包括GPU和定制芯片、数据中心、网络、存储、编排平台（Kubernetes、Slurm）、模型服务框架（vLLM、TensorRT）以及将所有这些打包的云服务提供商。AI基础设施—连接模型架构的抽象世界与电网和冷却系统的具体世界。

为什么重要

基础设施决定了可行的范围。之所以只有少数公司能够训练前沿模型，并不是因为缺乏创意——而是因为缺乏基础设施。而AI对终端用户所产生的成本则直接归因于GPU的可用性、数据中心的容量以及推理服务的效率。

深度解析

AI基础设施与传统云计算完全不同，尽管它们都运行在相同的数据中心内。一个常规的网页应用是CPU密集型且内存占用低的——几个核心，几个GB的RAM，可能还有一个规模适中的数据库。AI工作负载则完全颠覆了这一配置。训练像GPT-4或Claude这样的前沿模型需要数千个GPU并行运行数周，通过超高速互连（InfiniBand或NVLink）连接，以同步梯度而不会造成瓶颈。仅网络部分的成本就可能超过传统设置中服务器的成本。这就是为什么NVIDIA（拥有DGX SuperPOD系统）以及CoreWeave和Lambda Labs等云服务提供商围绕GPU优先的基础设施构建了整个业务，这种架构在其他任何场景下都显得荒谬。

训练堆栈

训练基础设施主要由几种硬件配置主导。NVIDIA的H100和H200 GPU是主力，通常以每节点8个GPU（通过NVLink连接）的形式部署，数百或数千个节点通过InfiniBand网络连接。谷歌有其TPU机群（v5e和v6），亚马逊有Trainium芯片，微软有其定制的Maia加速器——但NVIDIA仍然占据约80%的AI训练市场。在软件方面，分布式训练框架如DeepSpeed、Megatron-LM和PyTorch FSDP处理并行策略（数据并行、张量并行、流水线并行），使超出单个GPU容量的模型能够分布在整个集群中。调度通常运行于Kubernetes（带有GPU感知的调度）或Slurm（用于传统HPC风格的批处理工作负载）。整个堆栈——从硅芯片到调度器——必须协同工作，任何一个节点缓慢或网络连接不稳定都可能导致千个GPU训练运行的性能下降。

推理是另一回事

如果训练是一场建筑工程，推理则像一家餐厅厨房——它关注的是吞吐量、延迟和每请求的成本。推理基础设施有其专用工具：vLLM和TensorRT-LLM用于通过连续批处理和PagedAttention等技术服务大型语言模型；Triton推理服务器用于多模型服务；以及将模型从16位精度压缩到4位精度的量化工具，使其能够运行在更便宜的硬件上。经济性差异显著：在H100上以全精度运行模型可能每百万个token成本3美元，但使用量化版本在消费级GPU或定制推理芯片上运行可能将成本降至0.2美元以下。Groq（其LPU芯片）、Cerebras（晶圆级引擎）和SambaNova（数据流架构）等公司都押注于专用推理硬件最终将超越GPU在服务方面的成本优势。

自建还是购买的决策

对于大多数组织而言，AI基础设施不是自己构建的东西，而是租用的。超大规模云服务商（AWS、Azure、Google Cloud）提供按需GPU实例，而CoreWeave、Lambda和DataCrunch等专业提供商则提供更优惠的GPU价格并减少额外功能。只有在大规模时，本地GPU集群才有意义：Meta运营超过60万个H100，xAI的孟菲斯数据中心在一个屋顶下运行10万个GPU。低于这个规模时，管理GPU硬件的操作开销——处理热节流、GPU故障（H100每年故障率约为1–3%）、驱动更新和电源管理——很少能证明资本支出的合理性。对于大多数团队而言，真正的基础设施技能不是构建集群，而是选择合适的提供商、优化批处理大小，并知道何时使用可在单个GPU上运行的小型模型，而不是一味增加硬件投入。

未来趋势

基础设施格局正在迅速变化。定制芯片日益普及——目前所有主要云服务商都拥有或正在开发自己的AI芯片，以追逐NVIDIA的利润率。推理优化硬件正与训练硬件分离，因为工作负载特征差异巨大。边缘推理正在增长，模型在手机（苹果的Neural Engine、高通的Hexagon）和笔记本电脑（英特尔的NPU、AMD的XDNA）上运行，而非云端。AI代理（每个任务进行多次模型调用的系统）的兴起正在以超出当前容量的方式增加推理需求。目前控制AI基础设施的公司控制着AI进步的速度，这正是微软、谷歌和亚马逊每年在数据中心上各自投入超过500亿美元的原因。

AI 基础设施