用以容納伺服器、GPU、網路設備與冷卻系統等硬體設施,這些設施用於訓練與運行人工智慧模型。現代人工智慧資料中心專為大規模平行運算而設計,耗電量可達兆瓦級,且需要專業冷卻系統。單一前沿模型的訓練作業可能需要整個設施中數千個GPU運行數個月。
數據中心是AI時代的工廠。每次對Claude的查詢、Midjourney產生的圖片、Runway產生的影片,都依賴這些建築物內的硬體設備運行。全球AI就緒數據中心容量的短缺,是AI成長最大的限制之一—也是最大的投資機會之一。
AI資料中心不僅僅是傳統伺服器農場的放大版。基本的限制已經從計算密度轉移到電力密度。標準企業機架消耗7–10千瓦;裝載八個NVIDIA H100 GPU的機架耗電40–70千瓦,下一代GB200 NVL72機架甚至超過120千瓦。這表示相同樓地板面積的AI資料中心,可能需要5–10倍的電力容量。取得這麼多電力——通常每處設施需要100+兆瓦——已經成為主要瓶頸,這就是為何像微軟、亞馬遜和Google等公司,正在與核電廠簽約、探討小型模組化反應爐,甚至重新啟用已退役的電廠,只為了供應其GPU叢集。
傳統空氣冷卻根本無法應對現代AI負載。當你將數千個每個耗電700瓦的GPU塞進密閉空間時,散熱量令人咋舌——單一H100伺服器產生的熱負荷,幾乎等同於一台全功率運轉的空間加熱器。這促使產業以前所未有的速度轉向液體冷卻。直接芯片液冷,即冷卻液流經直接安裝在GPU上的冷卻板,目前已成為新AI設施的標準配置。一些營運商更進一步,採用全浸式冷卻,將整個伺服器浸入絕緣液體中。NVIDIA的GB200系統基本上需要液體冷卻——沒有實際可行的空氣冷卻配置。這種轉變對現有資料中心有重大影響:將原本設計為空氣冷卻的設施改造成液體冷卻,通常意味著拆除架高地板、增加管路基礎設施,並升級建築結構承重能力以承載冷卻液系統的重量。
AI資料中心內的網路架構才是真正的工程複雜度所在。當10,000個GPU在訓練過程中需要同步梯度更新時,互連必須提供極大的頻寬、最小的延遲和接近零的數據包遺失率。最初為高效能運算開發的InfiniBand,主導AI訓練叢集,因為它每個端口提供400Gb/s(800Gb/s NDR即將投入生產)以及RDMA等特性,可完全繞過CPU進行數據傳輸。乙太網正在追趕——Ultra乙太網聯盟與NVIDIA的Spectrum-X正在推動800GbE與RoCE(RDMA over Converged乙太網)——但InfiniBand仍是嚴肅訓練負載的預設選擇。網路拓撲也很重要:胖樹與軌道優化設計確保任何GPU都能以滿頻寬與其他GPU通訊,這在並行策略將模型分散至數百個節點時至關重要。
建造AI資料中心的地理位置是個戰略決策,由電力供應、氣候、光纖連接,以及日益增加的地緣政治因素驅動。北維吉尼亞州(亞斯伯恩走廊)擁有地球上最密集的資料中心集群,但電力限制正將新設施推往德州中部、北歐國家與中東地區。寒冷氣候可降低冷卻成本——Meta在瑞典呂勒奧的資料中心全年大部分時間都使用室外空氣冷卻。便宜的水力發電吸引設施前往魁北克與西北太平洋地區。同時,主權AI計畫正推動沙特阿拉伯、阿聯酋與印度等國建立國內GPU叢集,使其不依賴美國超大規模雲端服務商的AI容量。結果是預計到2027年全球投資將超過3000億美元,使AI資料中心成為史上最大的基礎設施投資之一。