nvidia-smi¶
NVML¶
nvidia-smi
底层使用了 NVIDIA Management Library (NVML) (基于 C 的 API,用于监视和管理 NVIDIA GPU 设备的各种状态)。NVML提供了对通过 nvidia-smi 公开的查询和命令的直接访问,NVML运行时(runtime)随NVIDIA显示驱动一起提供,SDK提供头文件、stub libraries 和 示例程序,旨在构建第三方应用程序平台。
nvidia-ml-py 提供了Python绑定的 NVIDIA Management Library (NVML) ,可以方便开发
使用 nvidia-smi 工具检查NVIDIA NVLink 可以提供 NVIDIA NVLink 的运行状态以及功能、计数,方便构建自己的 构建Prometheus监控NVIDIA NVLink
参考¶
NVIDIA GPU Debug Guidelines 提供了debug指南,可以使用工具进行诊断
DCGM initialization error #222 提供了一些诊断案例