数据中心：定义与含义 — AI 维基

用于存放服务器、GPU、网络设备和冷却系统的物理设施。现代AI数据中心专为大规模并行计算而设计，消耗兆瓦级电力，需要专用冷却系统。单次前沿模型训练可能需要整个设施中数千块GPU运行数月之久。

为什么重要

数据中心是人工智能时代的工厂。每一次对Claude的查询，每一张来自Midjourney的图片，每一个来自Runway的视频，都依赖于这些大楼中的硬件设备。全球范围内人工智能就绪的数据中心容量短缺，是人工智能发展的一大制约因素—同时也是最大的投资机遇之一。

深度解析

AI数据中心不仅仅是传统服务器机房的放大版。根本的限制因素已从计算密度转移到电力密度。标准企业机架的耗电量为7–10千瓦；装有八个NVIDIA H100 GPU的机架耗电量为40–70千瓦，下一代GB200 NVL72机架的耗电量甚至超过120千瓦。这意味着，与传统设施占用相同面积的AI数据中心可能需要5–10倍的电力容量。获取如此巨大的电力（通常每个设施需要100兆瓦以上）已成为主要瓶颈，这就是为什么微软、亚马逊和谷歌等公司正在与核电站签订协议、探索小型模块化反应堆，甚至重新启用退役的发电站，只为满足其GPU集群的电力需求。

冷却挑战

传统的风冷方式根本无法应对现代AI工作负载。当你将数千个每个耗电700瓦的GPU密集地安装在有限空间内时，产生的热量令人震惊——单个H100服务器产生的热负荷相当于一台全功率运行的电暖器。这推动了行业以前所未有的速度转向液冷技术。直接芯片液冷，即冷却液通过直接安装在GPU上的冷板流动，现已成为新AI设施的标准配置。一些运营商更进一步，采用全浸式冷却，将整个服务器浸入绝缘液中。NVIDIA的GB200系统本质上需要液冷——没有实际可行的风冷方案。这一转变对现有数据中心具有重大影响：将原本为风冷设计的设施改造为支持液冷，通常意味着拆除架空地板、增加管道基础设施，并升级建筑结构承重能力以承受冷却系统带来的重量。

建筑内部的网络

AI数据中心内部的网络架构是真正的工程复杂性所在。当10000个GPU在训练过程中需要同步梯度更新时，互连必须提供巨大的带宽，同时保持最低延迟和接近零的数据包丢失。最初为高性能计算开发的InfiniBand主导了AI训练集群，因为它每个端口提供400 Gb/s的带宽（800 Gb/s的NDR版本即将投入生产），并具备绕过CPU进行数据传输的RDMA功能。以太网正在迎头赶上——Ultra以太网联盟和NVIDIA的Spectrum-X正在推动800 GbE与RoCE（基于融合以太网的RDMA）技术——但InfiniBand仍然是处理严肃训练任务的默认选择。网络拓扑结构同样重要：胖树结构和轨道优化设计确保任何GPU都能以满带宽与其他GPU通信，这对于将模型拆分到数百个节点的并行策略至关重要。

地理与战略

AI数据中心的选址是一个受电力供应、气候条件、光纤连接和日益增长的地缘政治因素驱动的战略决策。北弗吉尼亚州（阿什本走廊）是地球上数据中心最密集的地区，但电力限制正在推动新建项目向德克萨斯州中部、北欧国家和中东地区转移。寒冷的气候可降低冷却成本——Meta在瑞典吕勒奥的数据中心全年大部分时间都使用室外空气进行冷却。廉价的水电吸引了魁北克和太平洋西北地区建设数据中心。同时，主权AI计划正在推动沙特阿拉伯、阿联酋和印度等国家建设国内GPU集群，以避免依赖美国超大规模云服务商的AI算力。结果是，预计到2027年全球AI数据中心建设投资将超过3000亿美元，使其成为历史上最大的基础设施投资之一。

数据中心

为什么重要

深度解析

冷却挑战

建筑内部的网络

地理与战略

相关概念