NVIDIA 硬件架构与算力解析

1. 概述

如果说上一层目录在讲清楚“一台 AI 服务器有哪几层硬件”，那么这个目录要回答的问题更具体：在 NVIDIA 这条主流路线上，GPU 内部到底长什么样？为什么在大模型时代依旧是算力底座的首选？它和 NPU 等专用芯片相比又有什么取舍？

内容上分为两条线：一条沿硬件内部结构向下走（SM、Tensor Core、内存层次、具体型号），另一条则拉高到算力生态视角，把 GPGPU 和 NPU 在训练、推理场景下的优劣放在一起看。

2. 核心内容导航

2.1 深入理解 GPU 架构

如果你想弄清楚 GPU 为什么长这个样子，而不只是停留在“并行很好”这种笼统说法，这一节就是入门的入口。详细内容放在 understand_gpu_architecture 子目录中，可直接查阅其 README 文档。

架构基础：GPU 和 CPU 的设计理念到底有什么不同，并行计算硬件化的代价是什么，以及多层内存（全局内存、共享内存等）是怎么被设计出来的。
硬件实例分析：以数据中心级的 Tesla V100、A100 和工作站级的 RTX 5000 为例，看 Tensor Core 在各代架构中如何演进、从 HBM2 到 HBM2e 的代际突破，以及 MIG/Sparsity 等新能力如何落地。
实践练习：配有可直接跑的 CUDA API 查询和内存带宽基准测试，抛开纯理论，亲手验证。

2.2 MIG 与多实例 GPU

MIG 是 A100 引入的硬件级 GPU 分区能力——将物理 GPU 切分为独立实例，每实例有专用 SM 和显存。这在多租户推理场景中至关重要。

MIG 配置与实操：基于 GPU 7 现场查询（MIG Enabled），覆盖 profile 列表、启用/禁用流程、GI/CI 创建命令，以及 MIG vs 非 MIG 的 CUDA 设备枚举差异。

2.3 大模型算力架构对比

到了大模型时代，“用什么芯片训，用什么芯片推”不再是一个默认答案。这一节的目标就是把这个选择题展开。

GPGPU vs NPU：大模型推理与训练的算力选择指南 ——以 NVIDIA H100 为代表的 GPGPU 和以华为昇腾 910B 为代表的 NPU 是两种典型的设计思路，文章重点谈了三件事：
- 两者在架构上的关键差异在哪里；
- 面对 Transformer 的注意力机制、混合精度训练、内存管理策略，它们各自的适配程度怎么样；
- 从成本、生态成熟度、部署复杂度几个维度，给出在训练 vs 推理场景下的选型建议。

3. 相关资源

把硬件架构看懂以后，自然的下一步就是“如何对这些硬件编程”和“如何判断它们有没有被用好”，以下资源提供了后续延伸的方向：

CUDA 编程基础 - 结合底层架构知识，学习 CUDA 核心概念与编程范式
GPU 编程实践 - GPU 编程入门与实战指南
性能分析工具 - 利用 Nsight 等工具进行 GPU 性能分析与深度优化
AI 系统架构 - 了解底层算力如何支撑上层 AI 系统的整体架构设计