模型部署实战
从”模型发布”到”可用服务”,中间还隔着并行策略选择、硬件适配、SLO 验证、量化精度取舍等一系列工程决策。同一个 DeepSeek-V3 模型,在 16 卡 H20 上能跑到 15,800+ tokens/s,在 32 卡 H20 上达成什么 SLO 目标才是合理预期?同一个 Qwen2-VL-7B 视觉多模态模型,从 NVIDIA 生态迁移到华为昇腾 MindIE,需要经过哪些版本匹配与算子适配?本目录不讲泛泛的”部署指南”,而是给出两个带 SLO 数字、带硬件型号、带实测数据 的端到端参考方案,以及一个可复用的 SLO 验证脚本。
更多 SGLang 相关的大规模推理调优案例,请参见 SGLang 推理引擎。
1. NVIDIA H20 集群:DeepSeek-V3 MoE
以 32 卡 H20(4 × 8)部署 DeepSeek-V3(671B MoE,激活 37B),在不量化、不蒸馏前提下达成 200 并发 × 32K 上下文 × TTFT P95 < 1.2s 的 SLO 目标。
- DeepSeek-V3 MoE 在 32 张 H20 GPU 集群上的部署方案(理论分析篇):基于腾讯太极团队 16 卡 H20 达成 15,800+ tokens/s 实测数据的理论外推、PD 分离 + 大 EP 专家并行 + w4a8c8 量化的工程策略、显存容量核算、以及与 vLLM 源码机制的对照分析
slo_calc_v2.py:基于腾讯太极团队实测数据修正的 SLO 目标可达成性验证脚本——输入并发 / 上下文 / GPU 数量,输出 TTFT、TPOT、吞吐的预期达成情况(含 3000 条脱敏业务数据集的测试条件)
修正后的现实预期:32 卡 H20 吞吐 26,860–40,527 tokens/s,建议将原 50,000 tokens/s 目标调整至 30,000–35,000 tokens/s。
2. 华为昇腾平台:Qwen2-VL-7B 视觉多模态
- Qwen2-VL-7B-Instruct 昇腾部署指南:Atlas 800I A2(32G / 64G)硬件 + MindIE 1.0.0+ / CANN 8.0.RC1+ / OpenEuler 24.03 LTS 的完整软件栈,覆盖视觉 token 压缩、多分辨率图像输入、超 20 分钟视频理解等多模态推理的国产硬件适配要点
3. 方法论抽象
两份案例共同展示了一条端到端部署与运维方法论:
- SLO 目标量化:明确并发数、上下文长度、TTFT/TPOT/吞吐的 P50/P95/P99 分位数
- 硬件与并行策略匹配:依据显存总量(见
memory_calc/)与模型结构选 TP/EP/PP 组合 - 实测基准外推:优先使用同规模 / 同模型的公开实测数据(如腾讯太极 16 卡 H20)做理论外推,而非凭理论峰值估算
- SLO 可达成性验证:用
slo_calc_v2.py这类脚本在部署前做一次”纸上验证”,避免投入硬件后才发现目标不可达 - 国产化 / 合规场景:参考华为昇腾 MindIE 适配路径做软件栈与算子兼容性评估
相关阅读:并行策略理论参见 核心推理优化技术深度解析;SLO 指标定义参见 性能评估指标体系。