GPU 基础运维与监控

1. 概述

集群里每一张 GPU 的状态是不是健康、有没有真的被用起来、出了问题能不能第一时间发现——这几件事都得靠基础监控工具来回答。这个目录把日常运维中使用频率最高的几类工具还有一个典型的误区整理在一起,方便快速查阅。

需要特别提醒的是:别把 nvidia-smi 里的 GPU-Util 当成算力使用率。它只表示“某段时间有 Kernel 在跑”,背后是一个线程在忙还是全部 SM 都在忙,从这一个数字里完全看不出来。


2. 核心文档

  • GPU 设备查询 —— 用 CUDA API 读取设备属性和硬件规格,是写 CUDA 代码前的基本动作。
  • GPU 利用率是一个误导性指标 —— 解释为什么高利用率 ≠ 高效计算,以及正确的判断方式。
  • nvidia-smi 使用指南 —— 日常查询 GPU 状态时的第一入口,涵盖常用子命令与指标解读。
  • nvtop 监控工具 —— 交互式 TUI,适合在终端里实时观察多卡负载。
  • DCGM 监控实操 —— NVIDIA 官方数据中心级 GPU 监控方案,含实时 dmon、NVLink 状态、Prometheus 集成。
  • GPU 集群健康检查 —— 系统化三层检查流程(L1 扫一眼 / L2 结构诊断 / L3 压力验证),含 GPU 7 真实异常案例。
  • GPU 进程与资源管理 —— Compute Mode、CUDA_VISIBLE_DEVICES 隔离、NUMA 亲和性绑定、显存泄漏排查。

3. 相关资源