ACS GPU-HPN节点级别监控指标

本文介绍ACS集群中提供的GPU-HPN节点级别的Prometheus指标。

指标说明

指标

指标描述

标签

样例

node_cpu_seconds_total

节点CPU使用时间总计

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

  • mode:时间片类型,包括idle,iowait,irq,nice,softirq,steal,system,user。

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988

node_boot_time_seconds

购买GPU-HPN节点预留的时间点,当节点发生故障自愈时,该指标会更新为最近一次自愈完成的时间点。

node_boot_time_seconds 1.735635132e+09

node_memory_MemAvailable_bytes

节点可用内存大小(字节)

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12

node_memory_MemFree_bytes

节点空闲内存大小(字节)

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12

node_memory_MemTotal_bytes

节点总内存大小(字节)

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12

node_disk_read_bytes_total

节点磁盘读取字节总计

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08

node_disk_reads_completed_total

节点磁盘读取完成总数

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530

node_disk_writes_completed_total

节点磁盘写入完成总数

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965

node_disk_written_bytes_total

节点磁盘写入字节总数

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09

node_network_receive_bytes_total

节点累计接收字节总数

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07

node_network_transmit_bytes_total

节点累计发送字节总数

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07

DCGM_FI_DEV_COUNT

设备数量

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8

DCGM_FI_DEV_FB_TOTAL

表示总帧缓冲区(以MB为单位)。

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06

DCGM_FI_DEV_FB_USED

表示已用帧缓冲区大小(以MB为单位)。

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

  • UUID:设备唯一标识。

  • modelName:设备型号名称。

  • device:设备名称。

  • gpu:设备编号。

DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672

DCGM_FI_DEV_GPU_UTIL

GPU利用率(以百分比表示)。

  • NodeName:节点名称,对应Node对象中的spec.nodeName

  • instance:节点名称,对应Node对象中的spec.nodeName

  • UUID:设备唯一标识。

  • modelName:设备型号名称。

  • device:设备名称。

  • gpu:设备编号。

DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56

FAQ

ACS Pod指标中有相同名称的指标,例如DCGM_FI_DEV_FB_USED,配置Grafana看板时如何区分?

Pod指标中会带有NamespacePod标签,在PromQL编写时可用于过滤筛选。

累计值类型指标(如node_cpu_seconds_total指标)突然跳变的原因是什么?

累计值类型指标,如node_cpu_seconds_total指标,表示累计的CPU时间总量。在传统的ECS节点中,该值来自于操作系统的统计,当ECS节点重启时,该值会被直接置零。ACS集群中的GPU-HPN节点并不是真实的机器,累计值来自于ACS监控组件。组件的变更或升级,以及GPU-HPN节点在其生命周期内可能会有故障迁移等行为,对应的物理资源会发生变化,这些都会导致累计值指标重新归零计数。

建议对累计指标的观测采用irate等计算方法,以获得更直观的利用率数据。若您对相关指标配置了阈值告警,建议增加过滤参数,避免个别毛刺数据产生误报。

原始指标中的时间戳代表什么含义?

GPU-HPN Node级别的指标包含了时间戳属性,是标准的Prometheus格式,表示该资源指标采集时刻的时间戳,格式如下:

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

您可以搭配Prometheushonor_timestamps配置使用。ACS内置的Promethues大盘默认已经开启了该能力。