AI 系统运维与监控

1. 概述

本目录包含 AI 系统运维与监控的实用工具、脚本和最佳实践文档,涵盖 GPU 监控、InfiniBand 网络诊断等关键运维领域。


2. 核心文档


3. 相关资源

  • GPU 架构文档
  • NCCL 通信测试03_nccl - NVIDIA NCCL 分布式通信测试与基准工具。
  • 性能分析工具04_profiling - CUDA 和 GPU 性能分析工具指南。