ACS GPU-HPN监控指标-容器计算服务(ACS)-阿里云帮助中心

本文介绍ACS GPU-HPN的监控指标和RDMA监控指标。

GPU监控指标

指标项	单位	描述
DCGM_CUSTOM_DEV_HEALTH	-	GPU健康状态
DCGM_FI_PROF_SM_ACTIVE	%/100	GPU空间利用率
DCGM_FI_DEV_POWER_USAGE	W	GPU功率
DCGM_FI_DEV_GPU_TEMP	℃	GPU温度
DCGM_FI_DEV_GPU_UTIL	%	GPU时间利用率
DCGM_FI_DEV_FB_USED	MiB	GPU显存使用量
DCGM_FI_DEV_FB_TOTAL	MiB	GPU显存总量
DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED	Byte/s	GPU显存带宽
DCGM_FI_PROF_NVLINK_TX_BYTES	Byte/s	NvLink发送速率
DCGM_FI_PROF_NVLINK_RX_BYTES	Byte/s	NvLink接收速率

RDMA监控指标

指标项	单位	描述
rdma_service_monitor_tx_packets	packet	tx方向vqN发出的报文数
rdma_service_monitor_tx_bytes	byte	tx方向vqN发出的字节数
rdma_service_monitor_rx_packets	packet	rx方向vqN发出的报文数
rdma_service_monitor_rx_bytes	byte	rx方向vqN发出的字节数
rdma_service_monitor_rq_ece_mark	packet	rq双水线ece打标数
rdma_service_monitor_ecn_cnt	packet	收到的含ecn标记的报文数
rdma_service_monitor_rqe_miss	count	soe的vqN触发的rqe miss数
rdma_service_monitor_retrans_fail_cnt	packet	soe的vqN重传失败的次数
rdma_service_monitor_rx_packets_rate	pps	soe的rx方向vqN收到的报文速率
rdma_service_monitor_rx_bytes_rate	bps	soe的rx方向vqN收到的吞吐
rdma_service_monitor_tx_packets_rate	pps	soe的tx方向vqN收到的报文速率
rdma_service_monitor_tx_bytes_rate	bps	soe的tx方向vqN收到的吞吐

直接获取GPU/RDMA Prometheus指标（一般用于对接您自己的系统）

推荐通过ACS大盘，如果要自己采集数据可通过cadvisor：curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM，或者 kubectl get --raw "/api/v1/nodes/<your node name>/proxy/metrics/cadvisor"。更多详细内容，请参见采集ACS集群的容器监控Prometheus Metrics指标。