NVIDIA 硬件架构与算力解析
1. 概述
如果说上一层目录在讲清楚“一台 AI 服务器有哪几层硬件”,那么这个目录要回答的问题更具体:在 NVIDIA 这条主流路线上,GPU 内部到底长什么样?为什么在大模型时代依旧是算力底座的首选?它和 NPU 等专用芯片相比又有什么取舍?
内容上分为两条线:一条沿硬件内部结构向下走(SM、Tensor Core、内存层次、具体型号),另一条则拉高到算力生态视角,把 GPGPU 和 NPU 在训练、推理场景下的优劣放在一起看。
2. 核心内容导航
2.1 深入理解 GPU 架构
如果你想弄清楚 GPU 为什么长这个样子,而不只是停留在“并行很好”这种笼统说法,这一节就是入门的入口。详细内容放在 understand_gpu_architecture 子目录中,可直接查阅其 README 文档。
- 架构基础:GPU 和 CPU 的设计理念到底有什么不同,并行计算硬件化的代价是什么,以及多层内存(全局内存、共享内存等)是怎么被设计出来的。
- 硬件实例分析:以数据中心级的 Tesla V100、A100 和工作站级的 RTX 5000 为例,看 Tensor Core 在各代架构中如何演进、从 HBM2 到 HBM2e 的代际突破,以及 MIG/Sparsity 等新能力如何落地。
- 实践练习:配有可直接跑的 CUDA API 查询和内存带宽基准测试,抛开纯理论,亲手验证。
2.2 MIG 与多实例 GPU
MIG 是 A100 引入的硬件级 GPU 分区能力——将物理 GPU 切分为独立实例,每实例有专用 SM 和显存。这在多租户推理场景中至关重要。
- MIG 配置与实操:基于 GPU 7 现场查询(MIG Enabled),覆盖 profile 列表、启用/禁用流程、GI/CI 创建命令,以及 MIG vs 非 MIG 的 CUDA 设备枚举差异。
2.3 大模型算力架构对比
到了大模型时代,“用什么芯片训,用什么芯片推”不再是一个默认答案。这一节的目标就是把这个选择题展开。
- GPGPU vs NPU:大模型推理与训练的算力选择指南 ——以 NVIDIA H100 为代表的 GPGPU 和以华为昇腾 910B 为代表的 NPU 是两种典型的设计思路,文章重点谈了三件事:
- 两者在架构上的关键差异在哪里;
- 面对 Transformer 的注意力机制、混合精度训练、内存管理策略,它们各自的适配程度怎么样;
- 从成本、生态成熟度、部署复杂度几个维度,给出在训练 vs 推理场景下的选型建议。
3. 相关资源
把硬件架构看懂以后,自然的下一步就是“如何对这些硬件编程”和“如何判断它们有没有被用好”,以下资源提供了后续延伸的方向: