全部产品

GPU实例监控

更新时间:2021-01-07 10:42

本文主要为您介绍如何在Prometheus中监控ECI GPU实例。

前提条件

  • 拥有Serverless Kubernetes集群

  • 集群内对应的Prometheus监控服务已经部署完成,如未部署,可以参考通过ASK集成ARMS监控

步骤

1. 创建一个GPU实例,通过对应的annotation指定

apiVersion: v1
kind: Pod
metadata:
  name: cg-gpu-0
  annotations:
    # 创建时需要指定对应的GPU实例规格
    k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge"
spec:
  containers:
  - image: nginx
    name: cg
    resources: 
      limits:
        cpu: 500m
        # 指定容器使用的GPU实例
        nvidia.com/gpu: '1'
    command: ["bash","-c","sleep 100000"]
  dnsPolicy: ClusterFirst
  restartPolicy: Always

2. ECI的GPU监控无需额外部署任何插件,在集群中跳转至Prometheus服务的Grafana控制台即可。典型情况下,我们已经为您提前创建好了对应的监控大盘。操作步骤如下:

大盘列表

点击大盘 GPU APP/GPU Node 即可跳转至对应详情页面。

GPU监控详情

3.ECI实例可复用ACK中基于GPU指标的HPA组件,如需使用可参考基于GPU指标实现弹性伸缩

注意事项

  • Virtual Kubelet版本需大于v2.0.0.26-e8c756ed2-aliyun