HBM 显存技术演进：从 HBM2 到 HBM3e

HBM (High Bandwidth Memory) 是 AI 算力的”燃料管道”——GPU 算力每年翻倍，但如果显存带宽跟不上，Tensor Core 只能空转。本文覆盖 HBM 各代的技术参数、关键创新及 A100 (HBM2e) 与 RTX 5090 (GDDR7) 的实测对比。

1. 为什么 HBM 对 AI 至关重要

GPU 的计算吞吐和显存带宽必须匹配。以 A100 为例：

A100 Tensor Core (BF16): 312 TFLOPS
A100 HBM2e 带宽:        2039 GB/s
每 FLOP 可用带宽:        2039 GB/s ÷ 312 TFLOPS ≈ 6.5 bytes/FLOP

对于矩阵乘法等计算密集型算子，这个比例是够的。但 Attention 机制每次计算都要读取整个 KV Cache——如果序列长度 32K、hidden size 8192，KV Cache 约 2 GB，在 A100 上每次 Attention 计算仅读取 KV Cache 就需要 ~1 ms，远超计算时间。显存带宽是 LLM 推理的真正瓶颈。

2. HBM vs GDDR：两种显存路线

	HBM (High Bandwidth Memory)	GDDR (Graphics Double Data Rate)
设计理念	位宽优先：1024-bit 起，堆栈式	频率优先：32-bit 接口，高频
位宽	1024-6144 bits (多堆栈)	32-512 bits (多芯片)
频率	1.2-3.2 GHz	14-28 GHz
带宽	410 GB/s → 4.8 TB/s (HBM3e)	1792 GB/s (RTX 5090 GDDR7)
功耗效率	高 (~3.5 pJ/bit)	较低 (~7 pJ/bit)
封装	3D 堆叠 + Si Interposer	PCB 上平面排布
成本	极高	低
典型产品	A100, H100, B200	RTX 4090, RTX 5090

消费级 GPU 使用 GDDR 是因为成本敏感。数据中心 GPU 使用 HBM 是因为带宽需求压倒成本考量。

3. HBM 代际演进

代际	带宽/堆栈	最大堆栈数	最大位宽	最大带宽	代表 GPU
HBM2	307 GB/s	4	4096-bit	900 GB/s	V100 (32 GB)
HBM2e	410 GB/s	5	5120-bit	2039 GB/s	A100 (80 GB)
HBM3	665 GB/s	6	6144-bit	3.35 TB/s	H100 (80 GB)
HBM3e	1.15 TB/s	8	8192-bit	4.8 TB/s	H200 (141 GB) / B200 (192 GB)

公式：总带宽 = 堆栈数 × 每堆栈带宽 × 2 (DDR)

以 A100 为例：

5 stacks × 1024 bits × 1.593 GHz × 2 (DDR) ÷ 8 = 2039 GB/s

3.1 HBM2e：A100 的精妙之处

A100 的 NVLink 3.0 设计逻辑与 HBM2e 一脉相承：减少每条链路的信号线数量，翻倍增加链路数。

	V100 HBM2	A100 HBM2e	变化
堆栈数	4	5	+25%
每堆栈位宽	1024-bit	1024-bit	不变
总位宽	4096-bit	5120-bit	+25%
频率	1.75 GHz	1.59 GHz	-9%
总带宽	900 GB/s	2039 GB/s	+2.3×

频率降低但位宽大增——这就是 HBM 的哲学。更宽的位宽意味着可以同时处理更多并发内存请求，减少排队延迟。

3.2 A100 vs RTX 5090：HBM2e vs GDDR7 实测

指标	A100 HBM2e	RTX 5090 GDDR7	说明
位宽	5120-bit	512-bit	A100 宽 10 倍
频率	1593 MHz	14001 MHz	RTX 5090 高 8.8 倍
理论带宽	2039 GB/s	1792 GB/s	A100 高 14%
实测 Copy Engine (1GB)	~818 GB/s (40%)	—	cudaMemcpy D2D 走 DMA Copy Engine
实测 Kernel R+W (1GB)	~1453 GB/s (71%)	—	SM 驱动 read+write，接近 HBM 全带宽

数据来源：03_hbm_bandwidth_bench.cu — 配套 benchmark，同时对比 Copy Engine vs Kernel 两种测法。Copy Engine（cudaMemcpy）只能到 ~40% 峰值，要用 SM 驱动的 kernel 才能测得真正的 HBM 带宽。

4. HBM 的 3D 封装技术

HBM 的性能来自于独特的物理结构：

          HBM 堆栈 (侧视图)
          ┌──────────┐
          │ DRAM Die │ ← 第 8 层
          │ DRAM Die │ ← 第 7 层
          │ DRAM Die │ ← 第 6 层
          │ DRAM Die │ ← 第 5 层
          │ DRAM Die │ ← 第 4 层
          │ DRAM Die │ ← 第 3 层
          │ DRAM Die │ ← 第 2 层
          │ DRAM Die │ ← 第 1 层 (顶层)
          │ Logic Die│ ← 控制器 + PHY
    ┌─────┴──────────┴─────┐
    │   Silicon Interposer │ ← 硅中介层
    │   (连接 GPU 与 HBM)   │
    └──────────────────────┘
    ┌──────────────────────┐
    │    GPU Die (GA100)   │
    └──────────────────────┘

3D 堆叠：DRAM die 垂直堆叠，通过 TSV (Through-Silicon Via) 连接
Silicon Interposer：微凸点（micro-bump）连接的硅中介层，GPU 和 HBM 堆栈共享
物理距离：GPU 到 HBM 的信号路径只有 ~1 mm，而 GDDR 走 PCB 需要 ~20-30 mm——这就是为什么 HBM 能用更低频率实现更高带宽

5. L2 Cache：HBM 的最后一级加速器

从 A100 开始，NVIDIA 大幅增加了 L2 Cache：

GPU	L2 Cache	HBM 带宽	L2/HBM 比
V100	6 MB	900 GB/s	1:150
A100	40 MB	2039 GB/s	1:51
H100	50 MB	3350 GB/s	1:67
B200	96 MB	4800 GB/s	1:50
RTX 5090	96 MB	1792 GB/s	1:19

L2 越大，越能掩盖 HBM 延迟。40 MB L2 在 A100 上足以容纳 4M 元素的 fp32 矩阵——这意味着中等大小的矩阵操作可以完全在 cache 内完成，带宽利用率可达 58% 以上。

6. 编程启示

尽量把数据留在显存：A100 HBM2e 内部带宽 (2039 GB/s) vs PCIe Gen4 (~28 GB/s) = 73倍
利用 L2 cache：中等矩阵 (≤ 数 MB) 操作受益于 L2 命中，实际带宽可达到峰值 50% 以上
大矩阵操作：A100 的宽位宽 (5120-bit) 比 RTX 5090 (512-bit) 更适合大数据流
GDDR vs HBM：RTX 5090 的 GDDR7 在 L2 命中时很快（~1341 GB/s），但一旦需要 DRAM 访问，窄位宽立刻成为瓶颈

参考

HBM 显存带宽测试 — A100 实测对比（含 Copy Engine vs Kernel 两种方法）
HBM 带宽 Benchmark — 可编译运行的配套代码
NVIDIA A100 架构详解 — HBM2e 在 A100 上的完整规格
PCIe & NVLink 带宽速查表 — 带宽全景对比
AI 基础设施延迟金字塔 — 各级延迟基准
JEDEC HBM Specs — HBM 标准制定者