GPU-HPN节点Prometheus监控指标详解-容器计算服务-阿里云

本文介绍ACS集群中提供的GPU-HPN节点级别的Prometheus指标。

指标说明

指标	指标描述	标签	样例
node_cpu_seconds_total	节点CPU使用时间总计。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。 mode：时间片类型，包括idle，iowait，irq，nice，softirq，steal，system，user。	node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="user"} 135268.20999999988
node_boot_time_seconds	购买GPU-HPN节点预留的时间点，当节点发生故障自愈时，该指标会更新为最近一次自愈完成的时间点。	无	node_boot_time_seconds 1.735635132e+09
node_memory_MemAvailable_bytes	节点可用内存大小（字节）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_memory_MemAvailable_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.070595100672e+12
node_memory_MemFree_bytes	节点空闲内存大小（字节）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_memory_MemFree_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.069967446016e+12
node_memory_MemTotal_bytes	节点总内存大小（字节）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_memory_MemTotal_bytes{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.9327352832e+12
node_disk_read_bytes_total	节点磁盘读取字节总计。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_disk_read_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.36580096e+08
node_disk_reads_completed_total	节点磁盘读取完成总数。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_disk_reads_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 2530
node_disk_writes_completed_total	节点磁盘写入完成总数。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_disk_writes_completed_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 85965
node_disk_written_bytes_total	节点磁盘写入字节总数。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_disk_written_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 7.331622912e+09
node_network_receive_bytes_total	节点累计接收字节总数。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_network_receive_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 4.5447566e+07
node_network_transmit_bytes_total	节点累计发送字节总数。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	node_network_transmit_bytes_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8.6421368e+07
DCGM_FI_DEV_COUNT	设备数量。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	DCGM_FI_DEV_COUNT{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 8
DCGM_FI_DEV_FB_TOTAL	表示总帧缓冲区（以MB为单位）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。	DCGM_FI_DEV_FB_TOTAL{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx"} 1.56672e+06
DCGM_FI_DEV_FB_USED	表示已用帧缓冲区大小（以MB为单位）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。 UUID：设备唯一标识。 modelName：设备型号名称。 device：设备名称。 gpu：设备编号。	DCGM_FI_DEV_FB_USED{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 9672
DCGM_FI_DEV_GPU_UTIL	GPU利用率（以百分比表示）。	NodeName：节点名称，对应Node对象中的`spec.nodeName`。 instance：节点名称，对应Node对象中的`spec.nodeName`。 UUID：设备唯一标识。 modelName：设备型号名称。 device：设备名称。 gpu：设备编号。	DCGM_FI_DEV_GPU_UTIL{NodeName="cn-wulanchabu-c.cr-xxx",UUID="GPU-hashID",instance="cn-wulanchabu-c.cr-xx",modelName="mode-name-demo"} 56
sysom_imc_node_event	节点级别的内存带宽性能监控（多个NUMA Socket的加和），采集时间窗口为30秒。	instance：节点名称，对应Node对象中的`spec.nodeName`。 value：内存带宽的指标类型。 bw_rd：读带宽(MB/s) 。 bw_wr：写带宽(MB/s) 。 rlat：读平均延迟（ns）。其他类型目前未支持	sysom_imc_node_event{instance="cn-wulanchabu-c.cr-akrjaz1r0csm2qdrk227",value="bw_rd"} 780

FAQ

ACS Pod指标中有相同名称的指标，例如DCGM_FI_DEV_FB_USED，配置Grafana看板时如何区分？

Pod指标中会带有Namespace和Pod标签，在PromQL编写时可用于过滤筛选。

累计值类型指标（如node_cpu_seconds_total指标）突然跳变的原因是什么？

累计值类型指标，如node_cpu_seconds_total指标，表示累计的CPU时间总量。在传统的ECS节点中，该值来自于操作系统的统计，当ECS节点重启时，该值会被直接置零。ACS集群中的GPU-HPN节点并不是真实的机器，累计值来自于ACS监控组件。组件的变更或升级，以及GPU-HPN节点在其生命周期内可能会有故障迁移等行为，对应的物理资源会发生变化，这些都会导致累计值指标重新归零计数。

建议对累计指标的观测采用irate等计算方法，以获得更直观的利用率数据。若您对相关指标配置了阈值告警，建议增加过滤参数，避免个别毛刺数据产生误报。

原始指标中的时间戳代表什么含义？

GPU-HPN Node级别的指标包含了时间戳属性，是标准的Prometheus格式，表示该资源指标采集时刻的时间戳，格式如下：

node_cpu_seconds_total{NodeName="cn-wulanchabu-c.cr-xxx",instance="cn-wulanchabu-c.cr-xxx",mode="idle"} 17.509999999999998 1735112457237

您可以搭配Prometheus的honor_timestamps配置使用。ACS内置的Promethues大盘默认已经开启了该能力。