資料中心：定義與含義 — AI 維基

用以容納伺服器、GPU、網路設備與冷卻系統等硬體設施，這些設施用於訓練與運行人工智慧模型。現代人工智慧資料中心專為大規模平行運算而設計，耗電量可達兆瓦級，且需要專業冷卻系統。單一前沿模型的訓練作業可能需要整個設施中數千個GPU運行數個月。

為什麼重要

數據中心是AI時代的工廠。每次對Claude的查詢、Midjourney產生的圖片、Runway產生的影片，都依賴這些建築物內的硬體設備運行。全球AI就緒數據中心容量的短缺，是AI成長最大的限制之一—也是最大的投資機會之一。

深度解析

AI資料中心不僅僅是傳統伺服器農場的放大版。基本的限制已經從計算密度轉移到電力密度。標準企業機架消耗7–10千瓦；裝載八個NVIDIA H100 GPU的機架耗電40–70千瓦，下一代GB200 NVL72機架甚至超過120千瓦。這表示相同樓地板面積的AI資料中心，可能需要5–10倍的電力容量。取得這麼多電力——通常每處設施需要100+兆瓦——已經成為主要瓶頸，這就是為何像微軟、亞馬遜和Google等公司，正在與核電廠簽約、探討小型模組化反應爐，甚至重新啟用已退役的電廠，只為了供應其GPU叢集。

冷卻挑戰

傳統空氣冷卻根本無法應對現代AI負載。當你將數千個每個耗電700瓦的GPU塞進密閉空間時，散熱量令人咋舌——單一H100伺服器產生的熱負荷，幾乎等同於一台全功率運轉的空間加熱器。這促使產業以前所未有的速度轉向液體冷卻。直接芯片液冷，即冷卻液流經直接安裝在GPU上的冷卻板，目前已成為新AI設施的標準配置。一些營運商更進一步，採用全浸式冷卻，將整個伺服器浸入絕緣液體中。NVIDIA的GB200系統基本上需要液體冷卻——沒有實際可行的空氣冷卻配置。這種轉變對現有資料中心有重大影響：將原本設計為空氣冷卻的設施改造成液體冷卻，通常意味著拆除架高地板、增加管路基礎設施，並升級建築結構承重能力以承載冷卻液系統的重量。

建築內的網路

AI資料中心內的網路架構才是真正的工程複雜度所在。當10,000個GPU在訓練過程中需要同步梯度更新時，互連必須提供極大的頻寬、最小的延遲和接近零的數據包遺失率。最初為高效能運算開發的InfiniBand，主導AI訓練叢集，因為它每個端口提供400Gb/s（800Gb/s NDR即將投入生產）以及RDMA等特性，可完全繞過CPU進行數據傳輸。乙太網正在追趕——Ultra乙太網聯盟與NVIDIA的Spectrum-X正在推動800GbE與RoCE（RDMA over Converged乙太網）——但InfiniBand仍是嚴肅訓練負載的預設選擇。網路拓撲也很重要：胖樹與軌道優化設計確保任何GPU都能以滿頻寬與其他GPU通訊，這在並行策略將模型分散至數百個節點時至關重要。

地理與策略

建造AI資料中心的地理位置是個戰略決策，由電力供應、氣候、光纖連接，以及日益增加的地緣政治因素驅動。北維吉尼亞州（亞斯伯恩走廊）擁有地球上最密集的資料中心集群，但電力限制正將新設施推往德州中部、北歐國家與中東地區。寒冷氣候可降低冷卻成本——Meta在瑞典呂勒奧的資料中心全年大部分時間都使用室外空氣冷卻。便宜的水力發電吸引設施前往魁北克與西北太平洋地區。同時，主權AI計畫正推動沙特阿拉伯、阿聯酋與印度等國建立國內GPU叢集，使其不依賴美國超大規模雲端服務商的AI容量。結果是預計到2027年全球投資將超過3000億美元，使AI資料中心成為史上最大的基礎設施投資之一。

資料中心

為什麼重要

深度解析

冷卻挑戰

建築內的網路

地理與策略

相關概念