AI 基礎設施：定義與含義 — AI 維基

用於大規模訓練和部署AI模型所需的完整堆疊硬體、軟體與服務。這包括GPU與客製化晶片、資料中心、網路、儲存、編排平台（Kubernetes、Slurm）、模型服務框架（vLLM、TensorRT）以及整合所有資源的雲端服務供應商。AI基礎設施正是模型架構的抽象世界與電力系統和冷卻系統等具體世界交會之處。

為什麼重要

基礎設施決定什麼是可能的。只有少數公司能夠訓練尖端模型的原因不是缺乏想法——而是缺乏基礎設施。而 AI 對終端用戶的費用之所以如此，直接追溯到 GPU 可用性、資料中心容量以及推論服務效率。

深度解析

AI基礎設施看起來與傳統雲端運算完全不同，即使它們運行在相同的資料中心內。傳統的網頁應用程式是CPU密集型且記憶體需求較低——幾個核心、幾個GB的RAM，可能還有一個規模較小的資料庫。AI工作負載則完全顛覆了這種配置。訓練像GPT-4或Claude這樣的尖端模型需要數千個GPU並行運作數週，透過超高速互連（InfiniBand或NVLink）連結，以便同步梯度而不造成瓶頸。僅僅是網路部分的成本，就可能高於傳統設定中的伺服器成本。這就是為何像NVIDIA擁有DGX SuperPOD系統，以及雲端服務商如CoreWeave和Lambda Labs，都圍繞著以GPU為主的基礎設施建立了整個業務，這種配置在其他情境中會顯得荒謬。

訓練堆疊

訓練基礎設施主要由少數幾種硬體組態主導。NVIDIA的H100和H200 GPU是主力，通常每個節點部署8個（透過NVLink連接），數百或數千個節點則透過InfiniBand網路連結。Google有其TPU pod（v5e和v6），Amazon有Trainium晶片，Microsoft則有自製的Maia加速器——但NVIDIA仍佔據約80%的AI訓練市場。在軟體方面，分散式訓練框架如DeepSpeed、Megatron-LM和PyTorch FSDP處理平行策略（資料平行、張量平行、流水線平行），讓過於龐大的模型能分散到整個叢集中運作。排程通常透過Kubernetes搭配GPU感知排程，或使用Slurm處理傳統HPC風格的批次工作負載。整個堆疊——從晶片到排程器——必須協同運作，任何一個節點過慢或網路連結不穩定，都可能導致千個GPU訓練作業的效能崩潰。

推論是另一回事

如果訓練像是建築工程，推論則像是餐廳廚房——它講求吞吐量、延遲以及在規模上的每筆請求成本。推論基礎設施有其專屬工具：vLLM和TensorRT-LLM透過連續批次處理和PagedAttention技術服務大型語言模型；Triton推論伺服器支援多模型服務；以及量化工具，將模型從16位元精準度縮減至4位元精準度，使其能適配更便宜的硬體。經濟效益極為明顯：在H100上以完整精準度運行模型，每百萬個token可能要花3美元，但使用量化版本在消費者GPU或自製推論晶片上運行，可能將成本降至0.2美元以下。Groq（其LPU晶片）、Cerebras（晶圓級引擎）和SambaNova（資料流架構）等公司都押注於專為推論設計的硬體最終會超越GPU。

自建還是採購的抉擇

對大多數組織而言，AI基礎設施不是自己建造的東西，而是租用的。超大型雲端服務商（AWS、Azure、Google Cloud）提供按需GPU實例，而CoreWeave、Lambda和DataCrunch等專業供應商則提供更優惠的GPU價格，並減少額外功能。只有在極大規模時，內部GPU叢集才有意義：Meta運營超過60萬個H100，xAI的Memphis資料中心則在同一屋頂下運行10萬個GPU。規模小於此時，管理GPU硬體的運作負擔——處理熱節流、GPU故障（H100每年故障率約為1–3%）、驅動程式更新和電源管理——很少能合理化資本支出。對大多數團隊而言，真正的基礎設施技能不是建造叢集，而是選擇合適的供應商、最佳化批次大小，並知道何時該使用能在單一GPU上運行的小型模型，而不是一味增加硬體。

未來的走向

基礎設施的景觀正在快速變化。客製化晶片日益普及——目前所有主要雲端供應商都擁有或正在開發自己的AI晶片，追逐NVIDIA的利潤空間。推論優化的硬體正與訓練硬體分離，因為工作負載的特性截然不同。邊緣推論正在成長，模型運行在手機（Apple的Neural Engine、Qualcomm的Hexagon）和筆電（Intel的NPU、AMD的XDNA）上，而非雲端。而AI代理——能在每個任務中進行多次模型呼叫的系統——正在以倍數增加推論需求，這正在壓迫當前的處理能力。目前掌控AI基礎設施的公司，也掌控了AI進步的節奏，這正是為何Microsoft、Google和Amazon每年各自投入超過500億美元在資料中心上的原因。

AI 基礎設施