y-k8s集群通过 NVIDIA GPU Operator 部署 GPU Kubernetes¶
备注
通过 y-k8s安装NVIDIA GPU Operator 实现 GPU Kubernetes ,为后续 Machine Learning Atlas 做准备
说明¶
安装NVIDIA GPU Operator 是最简便的部署 NVIDIA容器运行时 实现 GPU Kubernetes 的方案( 不需要手工完成 为containerd安装NVIDIA Container Toolkit ),只需要简单的 helm 部署迅速完成所有有关NVIDIA GPU Kubernetes部署
为模拟多实例GPU Kubernetes,我采用了 NVIDIA Virtual GPU (vGPU) 技术:
快速部署¶
安装 helm :
在Linux平台安装helm¶
version=3.12.2
wget https://get.helm.sh/helm-v${version}-linux-amd64.tar.gz
tar -zxvf helm-v${version}-linux-amd64.tar.gz
sudo mv linux-amd64/helm /usr/local/bin/helm
添加NVIDIA Helm仓库:
添加NVIDIA仓库¶
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
&& helm repo update
在Ubuntu的Bare-metal/Passthrough上使用默认配置:
Ubuntu上Barmetal/Passthrough默认配置,helm 安装GNU Operator¶
helm install --wait --generate-name \
-n gpu-operator --create-namespace \
nvidia/gpu-operator
SO EASY
一切顺利的话,就部署完成了采用 NVIDIA Virtual GPU (vGPU) 技术模拟的 GPU Kubernetes ,可以完成大规模 Machine Learning Atlas 模拟。如果有问题,可以参考我的实践笔记:安装NVIDIA GPU Operator
备注
为了方便观察部署的 NVIDIA Virtual GPU (vGPU) 支持的 y-k8s
集群,也方便后续部署 Machine Learning Atlas 能够掌控运行状态,接下来先 y-k8s集群部署kube-prometheus-stack