本文为您介绍如何通过云监控控制台和API查询GPU监控数据。

监控指标说明

GPU相关监控指标提供如下三个维度的数据:GPU、实例、分组。

  • GPU维度监控指标

    GPU维度的监控指标采集每个GPU层面的监控数据,GPU维度的监控指标如下表所示:

    MetricName 单位 名称 dimensions
    gpu_memory_freespace Byte GPU维度显存空闲量 instanceId,gpuId
    gpu_memory_totalspace Byte GPU维度显存总量 instanceId,gpuId
    gpu_memory_usedspace Byte GPU维度显存使用量 instanceId,gpuId
    gpu_gpu_usedutilization % GPU维度GPU使用率 instanceId,gpuId
    gpu_encoder_utilization % GPU维度编码器使用率 instanceId,gpuId
    gpu_decoder_utilization % GPU维度解码器使用率 instanceId,gpuId
    gpu_gpu_temperature GPU维度GPU温度 instanceId,gpuId
    gpu_power_readings_power_draw W GPU维度GPU功率 instanceId,gpuId
    gpu_memory_freeutilization % GPU维度显存空闲率 instanceId,gpuId
    gpu_memory_useutilization % GPU维度显存使用率 instanceId,gpuId
  • 实例维度监控指标

    实例维度监控指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合,便于查询实例层面的整体使用情况。

    MetricName 单位 名称 dimensions
    instance_gpu_decoder_utilization % 实例维度GPU解码器使用率 instanceId
    instance_gpu_encoder_utilization % 实例维度GPU编码器使用率 instanceId
    instance_gpu_gpu_temperature 实例维度GPU温度 instanceId
    instance_gpu_gpu_usedutilization % 实例维度GPU使用率 instanceId
    instance_gpu_memory_freespace Byte 实例维度GPU显存空闲量 instanceId
    instance_gpu_memory_freeutilization % 实例维度GPU显存空闲率 instanceId
    instance_gpu_memory_totalspace Byte 实例维度GPU显存总量 instanceId
    instance_gpu_memory_usedspace Byte 实例维度GPU显存使用量 instanceId
    instance_gpu_memory_usedutilization % 实例维度GPU显存使用率 instanceId
    instance_gpu_power_readings_power_draw W 实例维度GPU功率 instanceId
  • 分组维度监控指标

    分组维度监控指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合,便于查询集群层面的整体使用情况。

    MetricName 单位 名称 dimensions
    group_gpu_decoder_utilization % 分组维度GPU解码器使用率 groupId
    group_gpu_encoder_utilization % 分组维度GPU编码器使用率 groupId
    group_gpu_gpu_temperature 分组维度GPU温度 groupId
    group_gpu_gpu_usedutilization % 分组维度GPU使用率 groupId
    group_gpu_memory_freespace Byte 分组维度GPU显存空闲量 groupId
    group_gpu_memory_freeutilization % 分组维度GPU显存空闲率 groupId
    group_gpu_memory_totalspace Byte 分组维度GPU显存总量 groupId
    group_gpu_memory_usedspace Byte 分组维度GPU显存使用量 groupId
    group_gpu_memory_usedutilization % 分组维度GPU显存使用率 groupId
    group_gpu_power_readings_power_draw W 分组维度GPU功率 groupId

通过云监控控制台查询GPU监控数据

您在购买ECS的GPU计算型实例后,只需安装GPU驱动和云监控插件,即可查看GPU相关监控图表、配置监控图表或设置报警规则。

查看监控图表

  1. 登录云监控控制台
  2. 单击左侧导航栏中的主机监控,进入主机监控页面。
  3. 在实例列表中,单击实例名称,进入实例详情页面,单击GPU监控页签,切换至GPU监控页签,可查看GPU相关监控图表。


配置监控图表

  1. 登录云监控控制台
  2. 单击左侧导航栏中Dashboard下的自定义大盘,进入当前监控大盘页面。
  3. 单击创建监控大盘,弹出创建视图组对话框,输入监控大盘名称后,单击创建按钮即可。
  4. 单击右上角的添加图表,进入添加图表页面。
  5. 选择图表类型:从折线图、面积图、TopN表格、热力图和饼图中选择您需要的图表类型。
  6. 选择监控项:在监控项下拉列表中,选择您需要的监控指标,配置完成后,点击发布即可。


设置报警规则

为新增GPU监控指标添加报警规则,建议您通过创建模板后将模板应用于分组的方式批量添加GPU报警规则,请参考报警模板最佳实践

通过API查询GPU监控数据

  • 通过API查询GPU监控数据,请参考DescribeMetricList
  • 参数说明:Namespace参数的取值为acs_ecs_dashboard,MetricName及Dimensions的取值,请参考上述表格中的GPU指标。