nvidia-smi

NVML

nvidia-smi 底层使用了 NVIDIA Management Library (NVML) (基于 C 的 API,用于监视和管理 NVIDIA GPU 设备的各种状态)。NVML提供了对通过 nvidia-smi 公开的查询和命令的直接访问,NVML运行时(runtime)随NVIDIA显示驱动一起提供,SDK提供头文件、stub libraries 和 示例程序,旨在构建第三方应用程序平台。

nvidia-ml-py 提供了Python绑定的 NVIDIA Management Library (NVML) ,可以方便开发

使用 nvidia-smi 工具检查NVIDIA NVLink 可以提供 NVIDIA NVLink 的运行状态以及功能、计数,方便构建自己的 构建Prometheus监控NVIDIA NVLink

参考