y-k8s集群通过 NVIDIA GPU Operator 部署 GPU Kubernetes

备注

通过 y-k8s安装NVIDIA GPU Operator 实现 GPU Kubernetes ,为后续 Machine Learning Atlas 做准备

说明

快速部署

在Linux平台安装helm
version=3.12.2
wget https://get.helm.sh/helm-v${version}-linux-amd64.tar.gz
tar -zxvf helm-v${version}-linux-amd64.tar.gz
sudo mv linux-amd64/helm /usr/local/bin/helm
  • 添加NVIDIA Helm仓库:

添加NVIDIA仓库
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
   && helm repo update
  • 在Ubuntu的Bare-metal/Passthrough上使用默认配置:

Ubuntu上Barmetal/Passthrough默认配置,helm 安装GNU Operator
helm install --wait --generate-name \
     -n gpu-operator --create-namespace \
     nvidia/gpu-operator

SO EASY

一切顺利的话,就部署完成了采用 NVIDIA Virtual GPU (vGPU) 技术模拟的 GPU Kubernetes ,可以完成大规模 Machine Learning Atlas 模拟。如果有问题,可以参考我的实践笔记:安装NVIDIA GPU Operator

备注

为了方便观察部署的 NVIDIA Virtual GPU (vGPU) 支持的 y-k8s 集群,也方便后续部署 Machine Learning Atlas 能够掌控运行状态,接下来先 y-k8s集群部署kube-prometheus-stack