通过Prometheus监控GPU实例
接入ARMS Prometheus监控后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文主要为您介绍如何在Prometheus中监控ECI GPU实例。
前提条件
已创建ASK集群,且集群已部署了ARMS Prometheus监控。具体操作,请参见ASK接入ARMS Prometheus监控。
操作步骤
登录容器服务管理控制台。
创建一个ECI GPU实例。
以Deployment为例,YAML示例如下:
apiVersion: apps/v1 kind: Deployment metadata: name: gpu-monitor spec: replicas: 1 selector: matchLabels: app: test template: metadata: labels: app: test alibabacloud.com/eci: "true" annotations: k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge" #指定GPU规格 spec: containers: - name: bert-container image: registry.cn-beijing.aliyuncs.com/eci_open/nginx:1.14.2 ports: - containerPort: 80 resources: limits: nvidia.com/gpu: 1 #指定容器使用的GPU个数
查看GPU指标。
后续步骤
在使用GPU来做高性能计算时,为了节约成本,您往往需要根据GPU指标(利用率、显存等)来做弹性伸缩。ECI GPU实例支持复用ACK中基于GPU指标的HPA组件,以实现弹性伸缩。具体操作,请参见基于GPU指标实现弹性伸缩。