GPU监控

更新时间:
复制为 MD 格式

云监控通过安装在阿里云主机(ECS实例)上的云监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。

前提条件

  • 请确保您已在云服务器ECS上创建GPU计算型实例,且已安装GPU驱动。具体操作,请参见创建GPU实例

    说明

    如果您先安装云监控插件,再安装GPU驱动,则需要重启云监控插件。关于如何重启云监控插件,请参见如何重启云监控C++版本插件?

  • 请确保您已在云服务器ECS上安装云监控插件。具体操作,请参见安装云监控插件

监控项说明

您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。

监控项

单位

MetricName

Dimensions

(Agent)GPU维度解码器使用率

%

gpu_decoder_utilization

userId、instanceId、gpuId

(Agent)GPU维度编码器使用率

%

gpu_encoder_utilization

userId、instanceId、gpuId

(Agent)GPU维度GPU温度

gpu_gpu_temperature

userId、instanceId、gpuId

(Agent)GPU维度GPU使用率

%

gpu_gpu_usedutilization

userId、instanceId、gpuId

(Agent)GPU维度显存空闲量

Byte

gpu_memory_freespace

userId、instanceId、gpuId

(Agent)GPU维度显存空闲率

%

gpu_memory_freeutilization

userId、instanceId、gpuId

(Agent)GPU维度显存使用量

Byte

gpu_memory_usedspace

userId、instanceId、gpuId

(Agent)GPU维度显存使用率

%

gpu_memory_usedutilization

userId、instanceId、gpuId

(Agent)GPU维度GPU功率

W

gpu_power_readings_power_draw

userId、instanceId、gpuId

(Agent)实例维度解码器使用率

%

instance_gpu_decoder_utilization

userId、instanceId

(Agent)实例维度编码器使用率

%

instance_gpu_encoder_utilization

userId、instanceId

(Agent)实例维度GPU温度

instance_gpu_gpu_temperature

userId、instanceId

(Agent)实例维度GPU使用率

%

instance_gpu_gpu_usedutilization

userId、instanceId

(Agent)实例维度显存空闲量

Byte

instance_gpu_memory_freespace

userId、instanceId

(Agent)实例维度显存空闲率

%

instance_gpu_memory_freeutilization

userId、instanceId

(Agent)实例维度显存使用量

Byte

instance_gpu_memory_usedspace

userId、instanceId

(Agent)实例维度显存使用率

%

instance_gpu_memory_usedutilization

userId、instanceId

(Agent)实例维度GPU功率

W

instance_gpu_power_readings_power_draw

userId、instanceId

说明

针对实例维度相关的指标(如instance_gpu_decoder_utilization、instance_gpu_gpu_temperature等):

  • Average:表示当前ECS instance中所有GPU卡中该项指标的平均值,例如ECS2GPU卡,每个卡的测量值分别为ab,那么Average=(a+b)/2。

  • Maximum:表示当前ECS instance中所有GPU卡中该项指标的最大值,例如ECS2GPU卡,每个卡的测量值分别为ab,那么Maximum=max(a,b)。

  • Minimum:表示当前ECS instance中所有GPU卡中该项指标的最小值,例如ECS2GPU卡,每个卡的测量值分别为ab,那么Minimum=min(a,b)。

查看GPU的监控数据

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云资源监控 > 主机监控

  3. 主机监控页面,单击目标主机的实例名称链接,或单击目标主机对应操作列的监控图表

  4. 单击GPU监控页签。

    GPU监控页签,查看GPU相关监控图表。

    您可以查看目标主机的GPU监控数据,还可以为目标GPU监控的监控指标设置报警规则,并查看报警。具体操作,请参见为主机创建报警规则查看报警

相关文档