Zubnet AI学习Wiki › NVIDIA
公司

NVIDIA

别名:GPU、CUDA、H100/H200、NeMo
这家公司的GPU驱动了全球几乎所有AI训练和大部分推理。最初是一家显卡公司,它成为了AI行业最关键的硬件供应商,短暂地使NVIDIA成为地球上最有价值的公司。

为什么重要

NVIDIA 是一家没有它就无法实现人工智能革命的公司——他们的 GPU 和 CUDA 软件生态系统是几乎所有重大 AI 模型训练的基础。结合专为 AI 设计的硬件、长达十年的软件护城河,以及对连接 GPU 的网络架构的控制权,使他们在 21 世纪最关键供应链中占据了近乎垄断的地位。当政府、企业和研究机构争夺 AI 计算能力时,他们实际上是在争夺 NVIDIA 的硬件,而这一事实使 Jensen Huang 的昔日显卡公司成为了地球上战略上最重要的科技公司。

深度解析

NVIDIA由黄仁勋、克里斯·马拉科夫斯基和库尔特·普里姆于1993年在美国加利福尼亚州圣何塞的一家Denny's餐厅创立。黄仁勋曾任职于LSI Logic担任芯片设计师,并在AMD担任微处理器工程师,他成为CEO后连续领导公司超过三十年—这是科技行业最长的任期之一。在大部分历史时期,NVIDIA是一家显卡公司。他们于1999年通过GeForce 256发明了GPU,通过2000年代主导了PC游戏市场,并通过向游戏玩家和专业可视化用户销售产品建立了稳定的业务。AI转型并非偶然—这是黄仁勋从2006年左右开始下的一盘棋,当时NVIDIA发布了CUDA编程框架,使研究人员能够使用GPU进行通用并行计算。当时几乎无人关注。十年后,这被证明是计算史上最重要的战略决策。

GPU如何颠覆AI

2010年代的深度学习革命运行在NVIDIA硬件上。当Alex Krizhevsky于2012年使用在两块GTX 580 GPU上训练的神经网络赢得ImageNet竞赛时,这并非因为GPU是为AI设计的—而是因为它们高度并行的架构恰好完美契合神经网络所需的矩阵乘法。NVIDIA比任何人都更快认识到这一点,并开始专门设计用于AI任务的芯片。Tesla(后更名以避免与汽车公司混淆)、Volta、Ampere、Hopper和Blackwell GPU架构在AI训练和推理性能方面都带来了巨大提升。2023年发布的H100成为全球最抢手的芯片,超大规模云服务商和AI实验室花费数十亿美元以确保分配。随后推出的H200和B200(Blackwell)进一步提升了性能,专为完整AI超级计算机设计的GB200 NVL72服务器机架也相继推出。到2025年,NVIDIA销售数据中心GPU的速度已超过其生产能力。

软件护城河

NVIDIA的主导地位不仅在于硬件—更在于构建了使转换成本高昂的软件生态系统。CUDA已成为GPU编程的既定标准,拥有数百万开发者、数千个库以及所有主要AI框架(PyTorch、TensorFlow、JAX)的深度优化。TensorRT用于推理优化,cuDNN用于深度学习原语,NCCL用于多GPU通信,Triton Inference Server用于部署—NVIDIA从硅片到软件提供完整的堆栈。竞争对手如AMD(ROCm)和Intel(oneAPI)虽尝试提供替代方案,但生态系统差距依然巨大。当研究人员编写CUDA代码时,他们实际上只编写能在NVIDIA硬件上运行的代码,而过去十年积累的CUDA优化库、教程和工具的累积效应,形成了任何竞争芯片都难以跨越的护城河。

万亿美元的转折点

NVIDIA的市值于2023年5月突破1万亿美元,2024年2月达到2万亿美元,并于2024年6月短暂超过3万亿美元,成为全球最有价值的公司。股价上涨反映了真实的需求爆炸—数据中心收入从2023财年第四季度的36亿美元增长至2024财年第四季度的184亿美元,短短一年增长约5倍,几乎完全由AI训练和推理需求驱动。黄仁勋成为全球最富有的人之一。NVIDIA的崛起速度对于其规模的公司来说前所未有,并重塑了半导体行业,台积电(负责制造NVIDIA芯片)难以跟上需求,各国也将GPU访问视为国家安全问题。

超越芯片:平台战略

NVIDIA已逐步从销售GPU扩展到销售完整的AI平台。DGX系统是即开即用的AI超级计算机。NVIDIA AI Enterprise是用于生产部署AI的软件套件。Omniverse是用于构建数字孪生和3D模拟的平台。NIM(NVIDIA Inference Microservices)将优化的AI模型封装为可部署容器。公司还通过2020年以69亿美元收购Mellanox进入网络领域,掌控连接数据中心GPU的InfiniBand互连技术。Blackwell架构引入了NVLink网络,可将多达576块GPU连接为单一系统。所有这些举措都旨在确保当AI基础设施从单个GPU扩展到仓库级计算时,NVIDIA不仅提供芯片,还提供完整的堆栈—使其成为科技行业中不可或缺的公司。

相关概念

← 所有术语
← 自然语言处理 神经网络 →
ESC