ACS GPU-HPN监控指标
GPU监控指标
指标项 | 单位 | 描述 |
DCGM_CUSTOM_DEV_HEALTH | - | GPU健康状态 |
DCGM_FI_PROF_SM_ACTIVE | %/100 | GPU空间利用率 |
DCGM_FI_DEV_POWER_USAGE | W | GPU功率 |
DCGM_FI_DEV_GPU_TEMP | ℃ | GPU温度 |
DCGM_FI_DEV_GPU_UTIL | % | GPU时间利用率 |
DCGM_FI_DEV_FB_USED | MiB | GPU显存使用量 |
DCGM_FI_DEV_FB_TOTAL | MiB | GPU显存总量 |
DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED | Byte/s | GPU显存带宽 |
DCGM_FI_PROF_NVLINK_TX_BYTES | Byte/s | NvLink发送速率 |
DCGM_FI_PROF_NVLINK_RX_BYTES | Byte/s | NvLink接收速率 |
RDMA监控指标
指标项 | 单位 | 描述 |
rdma_service_monitor_tx_packets | packet | tx方向vqN发出的报文数 |
rdma_service_monitor_tx_bytes | byte | tx方向vqN发出的字节数 |
rdma_service_monitor_rx_packets | packet | rx方向vqN发出的报文数 |
rdma_service_monitor_rx_bytes | byte | rx方向vqN发出的字节数 |
rdma_service_monitor_rq_ece_mark | packet | rq双水线ece打标数 |
rdma_service_monitor_ecn_cnt | packet | 收到的含ecn标记的报文数 |
rdma_service_monitor_rqe_miss | count | soe的vqN触发的rqe miss数 |
rdma_service_monitor_retrans_fail_cnt | packet | soe的vqN重传失败的次数 |
rdma_service_monitor_rx_packets_rate | pps | soe的rx方向vqN收到的报文速率 |
rdma_service_monitor_rx_bytes_rate | bps | soe的rx方向vqN收到的吞吐 |
rdma_service_monitor_tx_packets_rate | pps | soe的tx方向vqN收到的报文速率 |
rdma_service_monitor_tx_bytes_rate | bps | soe的tx方向vqN收到的吞吐 |
直接获取GPU/RDMA prometheus指标(一般用于对接您自己的系统)
推荐通过acs大盘,如果要自己采集数据可通过cadvisor:curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM,或者 kubectl get --raw /api/v1/nodes/<your node name>/proxy/metrics/cadvisor
详细可参考 采集指定虚拟节点的Metrics