NVIDIA GPU Operator

../../_images/nvidia-gpu-operator.jpg

Kubernetes 通过设备插件框架提供度特殊硬件资源的访问,例如 NVIDIA GPU, NIC, Infiniband适配器和其他设备。但是,这些硬件资源配置和管理节点需要配置多个软件组件,如 驱动程序, 容器运行时(Container Runtimes) 或其他库。这些软件组件配置困难且容易出错,例如NVIDIA软件组件管理就非常复杂。

NVIDIA GPU Operator - Kubernetes应用打包部署 使用了 Kubernetes 的 Operator框架来自动化管理配置 GPU 所需的所有NVIDIA软件组件:

  • NVIDIA 驱动程序(用于启用 CUDA)

  • GPU 的 Kubernetes 设备插件

  • NVIDIA 容器工具包(Container Toolkit)

  • 使用GFD( gpu-feature-discovery )的自动节点标记(node labeling)

  • 基于DCGM(Data Center GPU Manager)的监控

NVIDIA GPU Operator集成

NVIDIA GPU Operator可以集成到多种云计算平台:

我在 私有云架构 通过 采用OVMF实现passthrough GPU和NVMe存储Nvidia Tesla P10 GPU运算卡 passthrogh 给虚拟机 z-k8s-n-1 ,并完成了 在OVMF虚拟机中安装NVIDIA Linux驱动 ,已经准备好运行环境。

接下来:

参考