y-k8s集群部署kube-prometheus-stack

在完成 y-k8s集群通过 nvidia_gpu_operator 部署 gpu_k8s 之后, y-k8s 集群已经具备了GPU加速 Machine Learning Atlas 能力。为了方便观测,部署 Prometheus监控 stack来实现

部署采用 在Kubernetes集群(z-k8s)部署集成GPU监控的Prometheus和Grafana 相同方法,在原有方案基础上做一些迭代改进,详细步骤记录在 在Kubernetes集群(y-k8s)部署集成GPU监控的Prometheus和Grafana ,本文做一个精简索引

安装Prometheus 和 Grafana

  • 添加 Prometheus 社区helm chart:

添加 Prometheus 社区helm chart
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

待续…我需要先实现 Calico网络 + Istio服务网格 再回过来完成这里的部署