接入可观测监控Prometheus版后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文为您介绍如何通过Prometheus监控ECI GPU实例。
前提条件
已创建ACK Serverless集群,且集群已接入可观测监控 Prometheus 版。具体操作,请参见阿里云Prometheus监控。
操作步骤
登录容器服务管理控制台。
创建一个ECI GPU实例。
以Deployment为例,YAML示例如下:
apiVersion: apps/v1 kind: Deployment metadata: name: gpu-monitor spec: replicas: 1 selector: matchLabels: app: test template: metadata: labels: app: test alibabacloud.com/eci: "true" annotations: k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge" #指定GPU规格 spec: containers: - name: bert-container image: registry.cn-beijing.aliyuncs.com/eci_open/nginx:1.14.2 ports: - containerPort: 80 resources: limits: nvidia.com/gpu: 1 #指定容器使用的GPU个数
查看GPU指标。
相关文档
在使用GPU来做高性能计算时,为了节约成本,您往往需要根据GPU指标(利用率、显存等)来做弹性伸缩。ECI GPU实例支持复用ACK中基于GPU指标的HPA组件,以实现弹性伸缩。具体操作,请参见基于GPU指标实现弹性伸缩。
文档内容是否对您有帮助?