NPU 性能分析
本模块聚焦于 NPU 程序的性能分析——从”能跑”到”跑得快”。回答三个核心问题:时间花在哪、硬件利用率如何、如何优化。
工具按粒度从粗到细:npu-smi(卡级实时监控,对标 nvidia-smi)→ torch_npu.profiler(算子级 Chrome trace,对标 CUDA Profiler)→ ascend-dmi --bw(带宽基准,对标 bandwidthTest)。实测 16384² 矩阵乘法达 71.84 TFLOPS(FP32 理论峰值 ~80 TFLOPS),ResNet-50 吞吐 180 img/s (batch=8)。
1. NPU 性能分析入门
从”计算 bound vs 访存 bound”的基本概念出发,覆盖 synchronize 异步陷阱、warmup 编译延迟、Chrome trace 读图方法、npu-smi 采样窗口限制等新手最常见的踩坑点。包含矩阵乘法/2D 卷积/ResNet-50 三类算子的 profiling 数据和决策清单。