本文主要为您介绍如何在Prometheus中监控ECI GPU实例。
前提条件
拥有Serverless Kubernetes集群
集群内对应的Prometheus监控服务已经部署完成,如未部署,可以参考通过ASK集成ARMS监控
步骤
1. 创建一个GPU实例,通过对应的annotation指定
apiVersion: v1
kind: Pod
metadata:
name: cg-gpu-0
annotations:
# 创建时需要指定对应的GPU实例规格
k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge"
spec:
containers:
- image: nginx
name: cg
resources:
limits:
cpu: 500m
# 指定容器使用的GPU实例
nvidia.com/gpu: '1'
command: ["bash","-c","sleep 100000"]
dnsPolicy: ClusterFirst
restartPolicy: Always
2. ECI的GPU监控无需额外部署任何插件,在集群中跳转至Prometheus服务的Grafana控制台即可。典型情况下,我们已经为您提前创建好了对应的监控大盘。操作步骤如下:
打开阿里云Prometheus控制台,切换至对应地域
点击 Prometheus监控 > K8S 栏中的集群名跳转至大盘列表页

点击大盘 GPU APP/GPU Node 即可跳转至对应详情页面。

3.ECI实例可复用ACK中基于GPU指标的HPA组件,如需使用可参考基于GPU指标实现弹性伸缩
注意事项
Virtual Kubelet版本需大于v2.0.0.26-e8c756ed2-aliyun
在文档使用中是否遇到以下问题
更多建议
匿名提交