通过Prometheus监控GPU实例

接入可观测监控Prometheus版后,您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文为您介绍如何通过Prometheus监控ECI GPU实例。

前提条件

已创建ACK Serverless集群,且集群已接入可观测监控 Prometheus 版。具体操作,请参见阿里云Prometheus监控

操作步骤

  1. 登录容器服务管理控制台

  2. 创建一个ECI GPU实例。

    以Deployment为例,YAML示例如下:

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: gpu-monitor
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: test
      template:
        metadata:
          labels:
            app: test
            alibabacloud.com/eci: "true" 
          annotations:
           k8s.aliyun.com/eci-use-specs : "ecs.gn6i-c4g1.xlarge"     #指定GPU规格
        spec:
          containers:
          - name: bert-container
            image: registry.cn-beijing.aliyuncs.com/eci_open/nginx:1.14.2
            ports:
            - containerPort: 80
            resources:
              limits:
                nvidia.com/gpu: 1   #指定容器使用的GPU个数
    
  3. 查看GPU指标。

    1. 集群信息页面的概览页签下,单击右上角的Prometheus 监控

    2. Prometheus 监控页面,单击GPU监控页签,查看对应的监控详情。

      ACK Serverless集群接入可观测监控 Prometheus 版后,您无需部署额外插件,即可监控ECI GPU实例。默认情况下,系统已为您提前创建好了对应的监控大盘。更多信息,请参见监控面板说明监控指标说明

相关文档

在使用GPU来做高性能计算时,为了节约成本,您往往需要根据GPU指标(利用率、显存等)来做弹性伸缩。ECI GPU实例支持复用ACK中基于GPU指标的HPA组件,以实现弹性伸缩。具体操作,请参见基于GPU指标实现弹性伸缩