AI 系统运维与监控
1. 概述
本目录包含 AI 系统运维与监控的实用工具、脚本和最佳实践文档,涵盖 GPU 监控、InfiniBand 网络诊断等关键运维领域。
2. 核心文档
- GPU 设备查询工具 - 查询 GPU 卡详细参数的工具和方法
- GPU 利用率监控误区 - 深入分析 GPU 利用率指标的局限性
- nvidia-smi 使用指南 - NVIDIA 系统管理接口快速入门
- nvtop 监控工具 - GPU 实时监控工具使用指南
3. 相关资源
- GPU 架构文档
- NCCL 通信测试:03_nccl - NVIDIA NCCL 分布式通信测试与基准工具。
- 性能分析工具:04_profiling - CUDA 和 GPU 性能分析工具指南。