Zubnet AI學習Wiki › NVIDIA
公司

NVIDIA

別名:GPU、CUDA、H100/H200、NeMo
其 GPU 驅動著幾乎所有 AI 訓練和大部分推理的公司。這家從顯示卡起家的公司成為 AI 產業中最關鍵的硬體供應商,一度讓 NVIDIA 成為全球市值最高的企業。

為什麼重要

NVIDIA 是那個如果不存在,AI 革命就根本不會發生的公司 —— 他們的 GPU 和 CUDA 軟體生態系統是幾乎每個主要 AI 模型訓練的基石。專為 AI 打造的硬體、十年深耕的軟體護城河,加上對連結 GPU 的網路架構的掌控,共同賦予了他們在 21 世紀最關鍵供應鏈中近乎壟斷的地位。當政府、企業和研究實驗室爭奪 AI 算力時,他們爭奪的就是 NVIDIA 的硬體,而這一個事實就讓黃仁勳昔日的顯示卡公司成為當今地球上策略地位最重要的科技公司。

深度解析

NVIDIA 於 1993 年由黃仁勳、Chris Malachowsky 和 Curtis Priem 在加州聖荷西的一家 Denny's 餐廳創立。黃仁勳曾在 LSI Logic 擔任晶片設計師、在 AMD 擔任微處理器工程師,他出任 CEO 並持續掌舵超過三十年 —— 科技業中在位最久的 CEO 之一。在其歷史的大部分時間裡,NVIDIA 是一家顯示卡公司。他們在 1999 年以 GeForce 256 發明了 GPU,在 2000 年代主宰了 PC 遊戲市場,並建立了穩定的業務向遊戲玩家和專業視覺化用戶銷售產品。AI 轉型並非偶然 —— 它源自黃仁勳約在 2006 年開始的一個賭注,當時 NVIDIA 發布了 CUDA,一個讓研究人員能將 GPU 用於通用並行計算的程式設計框架。當時幾乎沒人在意。十年後,它被證明是計算歷史上最具決定性意義的策略決定。

GPU 如何吞噬 AI

2010 年代的深度學習革命運行在 NVIDIA 硬體上。當 Alex Krizhevsky 在 2012 年使用一個以兩顆 GTX 580 GPU 訓練的神經網路贏得 ImageNet 競賽時,這並非因為 GPU 是為 AI 設計的 —— 而是因為其大規模並行架構恰好非常適合神經網路所需的矩陣乘法。NVIDIA 比任何人都更快地認識到這一點,並開始專門為 AI 工作負載設計晶片。Tesla(後來為避免與汽車公司混淆而更名)、Volta、Ampere、Hopper 和 Blackwell GPU 架構各自在 AI 訓練和推理效能上帶來了巨大提升。2023 年發布的 H100 成為全球最搶手的晶片,超大規模雲端業者和 AI 實驗室花費數十億美元搶購配額。隨後的 H200 和 B200(Blackwell)進一步推升效能,GB200 NVL72 伺服器機架被設計為完整的 AI 超級電腦。到 2025 年,NVIDIA 的資料中心 GPU 供不應求。

軟體護城河

NVIDIA 的主導地位不僅在於硬體 —— 更在於使轉換成本高到驚人的軟體生態系統。CUDA 已成為 GPU 程式設計的事實標準,擁有數百萬開發者、數千個函式庫,且每個主要 AI 框架(PyTorch、TensorFlow、JAX)都深度優化於 CUDA 之上。TensorRT 用於推理優化、cuDNN 用於深度學習基本運算、NCCL 用於多 GPU 通訊、Triton Inference Server 用於部署 —— NVIDIA 提供了從矽晶到軟體的全棧方案。AMD(ROCm)和 Intel(oneAPI)等競爭者都試圖提供替代方案,但生態系統差距仍然巨大。當一個研究者寫 CUDA 程式碼時,他寫的是只能在 NVIDIA 硬體上運行的程式碼,而十多年來累積的 CUDA 優化函式庫、教程和工具所形成的慣性,構成了任何競爭性矽晶都難以輕易跨越的護城河。

兆級美元的轉折點

NVIDIA 的市值在 2023 年 5 月突破 1 兆美元,2024 年 2 月突破 2 兆美元,並在 2024 年 6 月短暫超過 3 兆美元,成為全球市值最高的公司。股價上漲反映了需求的真正爆發 —— 資料中心收入從 2023 財年第四季度的 36 億美元增長到 2024 財年第四季度的 184 億美元,一年內增長約 5 倍,幾乎完全由 AI 訓練和推理需求驅動。黃仁勳成為全球最富有的人之一。NVIDIA 崛起的速度對於如此規模的公司來說史無前例,它重塑了半導體產業 —— 台積電(為 NVIDIA 代工晶片)難以跟上需求,各國政府將 GPU 取得視為國家安全議題。

超越晶片:平台布局

NVIDIA 持續從單純賣 GPU 擴展到銷售完整的 AI 平台。DGX 系統是交鑰匙式的 AI 超級電腦。NVIDIA AI Enterprise 是一套用於生產環境部署 AI 的軟體套件。Omniverse 是建構數位分身和 3D 模擬的平台。NIM(NVIDIA Inference Microservices)將優化過的 AI 模型打包為可部署的容器。該公司還透過收購 Mellanox(2020 年以 69 億美元收購)進軍網路領域,掌控了資料中心中連結 GPU 的 InfiniBand 互連技術。Blackwell 架構引入了可將多達 576 顆 GPU 連接為單一系統的 NVLink 網路。這些舉措都是為了確保:當 AI 基礎設施從單顆 GPU 擴展到倉庫級運算時,NVIDIA 不僅提供晶片,而是提供整個技術棧 —— 使其成為科技產業史上最接近「不可或缺」的存在。

相關概念

← 所有術語
← 自然語言處理 神經網絡 →
ESC