模型优化技术
在推理成本结构中,decode 阶段通常占端到端时间的 70–90%,其瓶颈既来自模型本身的参数量与计算量,也来自自回归生成每步只出 1 个 token 的串行约束。模型优化因此沿两条正交路径展开:一是从模型下手——通过量化、稀疏、剪枝、蒸馏压缩权重与激活,降低单步成本;二是从解码协议下手——通过投机解码、Medusa、EAGLE 等机制让一次前向输出多个 token,放大每步收益。本目录覆盖这两条路径上具代表性的技术方案与工具链。
1. 投机解码:突破自回归串行瓶颈
投机解码(Speculative Decoding)以”小模型草拟、大模型验证”的方式,把 decode 阶段从”一次一个 token”变成”一次 K 个 token”,在接受率 α 足够高时可将 decode 延迟降低 2–3 倍。
- 图解投机解码:核心机制(草拟-验证状态机)、算法家族(vanilla / Medusa / EAGLE / Lookahead)、系统实现(vLLM / TensorRT-LLM 集成)、接受率 α 与小大模型耗时比 ρ 的性能模型,以及接受率评测方法
关键符号速查:$K$(草拟步长)/ $E[A]$(接受前缀期望长度)/ $\alpha = E[A]/K$(接受率)/ $\rho = t_\text{small}/t_\text{large}$(耗时比)。
2. 模型压缩工具链:NVIDIA ModelOpt
面向生产部署的一站式压缩工具包,覆盖从 Hugging Face / PyTorch / ONNX 模型导入到 TensorRT-LLM / vLLM 部署的完整链路。
- NVIDIA Model Optimizer 技术详解:量化(FP8 / INT8 / INT4 / Blackwell NVFP4,内置 SmoothQuant / AWQ / SVDQuant / AutoQuantize)、2:4 结构化稀疏(SparseGPT / ASP)、剪枝、蒸馏,以及与 TensorRT-LLM / vLLM 的部署集成
3. 选型思路
两条路径并非互斥,实际落地常组合使用:
| 目标 | 优先路径 | 可叠加技术 |
|---|---|---|
| 降低单卡显存占用 | 量化(INT8 / INT4 / FP8) | + 2:4 稀疏、权重蒸馏 |
| 提升吞吐(tokens/s) | 投机解码(vanilla / EAGLE) | + Continuous Batching、PD 分离 |
| 降低端到端延迟 | 投机解码 + FP8 量化 | + CUDA Graphs、TensorRT-LLM |
| 压缩模型部署体积 | 蒸馏 + INT4 量化 | + 结构化剪枝 |
相关阅读:KV Cache 层面的优化参见 KV Cache 压缩技术;CUDA Graph 层面的解码优化参见 vLLM CUDA Graphs 深度解析。
联动导航:结合
../memory_calc/做压缩后的显存重算,用../cost_analysis/验证量化 / 投机带来的单位 token 成本变化,在../reference_design/下进行整体架构权衡。