ACS GPU-HPN监控指标

更新时间:
复制为 MD 格式

GPU监控指标

指标项

单位

描述

DCGM_CUSTOM_DEV_HEALTH

-

GPU健康状态

DCGM_FI_PROF_SM_ACTIVE

%/100

GPU空间利用率

DCGM_FI_DEV_POWER_USAGE

W

GPU功率

DCGM_FI_DEV_GPU_TEMP

GPU温度

DCGM_FI_DEV_GPU_UTIL

%

GPU时间利用率

DCGM_FI_DEV_FB_USED

MiB

GPU显存使用量

DCGM_FI_DEV_FB_TOTAL

MiB

GPU显存总量

DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED

Byte/s

GPU显存带宽

DCGM_FI_PROF_NVLINK_TX_BYTES

Byte/s

NvLink发送速率

DCGM_FI_PROF_NVLINK_RX_BYTES

Byte/s

NvLink接收速率

RDMA监控指标

指标项

单位

描述

rdma_service_monitor_tx_packets

packet

tx方向vqN发出的报文数

rdma_service_monitor_tx_bytes

byte

tx方向vqN发出的字节数

rdma_service_monitor_rx_packets

packet

rx方向vqN发出的报文数

rdma_service_monitor_rx_bytes

byte

rx方向vqN发出的字节数

rdma_service_monitor_rq_ece_mark

packet

rq双水线ece打标数

rdma_service_monitor_ecn_cnt

packet

收到的含ecn标记的报文数

rdma_service_monitor_rqe_miss

count

soevqN触发的rqe miss

rdma_service_monitor_retrans_fail_cnt

packet

soevqN重传失败的次数

rdma_service_monitor_rx_packets_rate

pps

soerx方向vqN收到的报文速率

rdma_service_monitor_rx_bytes_rate

bps

soerx方向vqN收到的吞吐

rdma_service_monitor_tx_packets_rate

pps

soetx方向vqN收到的报文速率

rdma_service_monitor_tx_bytes_rate

bps

soetx方向vqN收到的吞吐

直接获取GPU/RDMA prometheus指标(一般用于对接您自己的系统)

推荐通过acs大盘,如果要自己采集数据可通过cadvisor:curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM,或者 kubectl get --raw /api/v1/nodes/<your node name>/proxy/metrics/cadvisor

详细可参考 采集指定虚拟节点的Metrics