GPU监控

云监控通过安装在阿里云主机(ECS实例)上的云监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。

前提条件

  • 请确保您已在云服务器ECS上创建GPU计算型实例,且已安装GPU驱动。具体操作,请参见创建GPU实例

    说明

    如果您先安装云监控插件,再安装GPU驱动,则需要重启云监控插件。关于如何重启云监控插件,请参见如何重启云监控C++版本插件?

  • 请确保您已在云服务器ECS上安装云监控插件。具体操作,请参见安装云监控插件

监控项说明

您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。

监控项

单位

MetricName

Dimensions

(Agent)GPU维度解码器使用率

%

gpu_decoder_utilization

userId、instanceId、gpuId

(Agent)GPU维度编码器使用率

%

gpu_encoder_utilization

userId、instanceId、gpuId

(Agent)GPU维度GPU温度

gpu_gpu_temperature

userId、instanceId、gpuId

(Agent)GPU维度GPU使用率

%

gpu_gpu_usedutilization

userId、instanceId、gpuId

(Agent)GPU维度显存空闲量

Byte

gpu_memory_freespace

userId、instanceId、gpuId

(Agent)GPU维度显存空闲率

%

gpu_memory_freeutilization

userId、instanceId、gpuId

(Agent)GPU维度显存使用量

Byte

gpu_memory_usedspace

userId、instanceId、gpuId

(Agent)GPU维度显存使用率

%

gpu_memory_usedutilization

userId、instanceId、gpuId

(Agent)GPU维度GPU功率

W

gpu_power_readings_power_draw

userId、instanceId、gpuId

查看GPU的监控数据

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云资源监控 > 主机监控

  3. 主机监控页面,单击目标主机的实例名称链接,或单击目标主机对应操作列的监控图表

  4. 单击GPU监控页签。

    GPU监控页签,查看GPU相关监控图表。

    您可以查看目标主机的GPU监控数据,还可以为目标GPU监控的监控指标设置报警规则,并查看报警。具体操作,请参见为主机创建报警规则查看报警

相关文档