GPU Pod的DCGM与RDMA监控指标列表-容器计算服务-阿里云

GPU监控基于Exporter+Prometheus+Grafana体系提供更为丰富的GPU可观性场景，您可以使用基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。本文介绍GPU监控指标的详细信息。

指标计费说明

GPU监控使用GPU Exporter兼容开源DCGM Exporter提供的监控指标。以下GPU监控指标均为基础指标，传入到Prometheus不会产生额外的费用。如果您使用其他自定义指标，则会产生额外的费用。具体收费策略，请参见计费概述。

指标列表

DCGM指标

DCGM相关指标可以基于以下资源维度进行筛选：

namespace="{{pod_namespace}}"
pod="{{pod_name}}"
Hostname="{{pod_name}}"
NodeName="cn-wulanchabu-c.cr-xxx"，仅限GPU-HPN Pod
UUID="GPU-example-uuid-abcd"
device="nvidia0"
gpu="0"
modelName="example-model"

指标维度	指标名	指标类型	指标单位	指标说明
GPU资源指标	DCGM_FI_DEV_GPU_UTIL	Gauge	%	表示GPU利用率，即在一个周期时间内（1s或1/6s，根据GPU产品而定），一个或多个核函数处于Active状态的时间。该指标仅能够展示有核函数在用的GPU资源，但无法展示具体的使用情况。
	DCGM_FI_DEV_FB_USED	Gauge	MiB	表示显存（帧缓存）已使用数。
	DCGM_FI_DEV_FB_TOTAL	Gauge	MiB	表示显存（帧缓存）总大小。
	DCGM_FI_DEV_ENC_UTIL	Gauge	%	表示编码器利用率。
	DCGM_FI_DEV_DEC_UTIL	Gauge	%	表示解码器利用率。
	DCGM_FI_DEV_MEM_COPY_UTIL	Gauge	%	表示内存带宽利用率。以英伟达GPU V100为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。
剖析（Profiling）	DCGM_FI_PROF_SM_ACTIVE	Gauge	%	表示在一个时间间隔内，至少一个线程束在一个SM（Streaming Multiprocessor）上处于Active的时间占比。该值表示所有SM的平均值，且该值对每个块的线程数不敏感。线程束处于Active是指一个线程束被调度且分配资源后的状态，可能是在Computing、也可能是非Computing状态（例如等待内存请求）。该值小于0.5表示未高效利用GPU，大于0.8是必要的。假设一个GPU有N个SM：一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上，此时该值为1（100%）。一个核函数在一个时间间隔内运行N/5个线程块，此时该值为0.2。一个核函数使用N个线程块，在一个时间间隔内，仅运行了1/5个周期的时间，此时该值为0.2。
	DCGM_FI_PROF_SM_OCCUPANCY	Gauge	%	表示在一个时间间隔内，驻留在SM上的线程束与该SM最大可驻留线程束的比例。该值表示一个时间间隔内的所有SM的平均值。占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载（DCGM_FI_PROF_DRAM_ACTIVE）情况下，更高的占用率表示更有效的GPU使用率。
	DCGM_FI_PROF_DRAM_ACTIVE	Gauge	%	表示内存带宽利用率（Memory BW Utilization）是将数据发送到设备内存或从设备内存接收数据的周期分数。该值表示时间间隔内的平均值，而不是瞬时值。较高的值表示设备内存的利用率较高。该值为1（100%）表示在整个时间间隔内的每个周期执行一条 DRAM 指令（实际上，峰值约为 0.8（80%）是可实现的最大值）。假设该值为0.2（20%），表示20%的周期在时间间隔内读取或写入设备内存。
	DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES	Counter	B/s	表示通过NVLink传输/接收的数据速率，不包括协议标头。该值表示一个时间间隔内的平均值，而不是瞬时值。该速率在时间间隔内平均。例如，在1秒内传输1 GB数据，则无论以恒定速率还是突发传输数据，速率都是1 GB/s。理论上，最大NVLink Gen2带宽为每个方向每个链路25 GB/s。
	DCGM_FI_PROF_PCIE_RX_BYTES DCGM_FI_PROF_PCIE_TX_BYTES	Counter	B/s	表示通过PCIe总线传输/接收的数据速率，包括协议标头和数据有效负载。该值表示一个时间间隔内的平均值，而不是瞬时值。该速率在时间间隔内平均。例如，在1秒内传输1 GB数据，则无论以恒定速率还是突发传输数据，速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。
	DCGM_FI_PROF_PIPE_TENSOR_ACTIVE	Gauge	%	表示Tensor（HMMA/IMMA）Pipe处于Active状态的周期分数。该值表示一个时间间隔内的平均值，而不是瞬时值。较高的值表示Tensor Cores的利用率较高。该值为1（100%）表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令（两个周期完成一条指令）。假设该值为0.2（20%），可能有如下情况：在整个时间间隔内，有20%的SM的Tensor Core以100%的利用率运行。在整个时间间隔内，有100%的SM的Tensor Core以20%的利用率运行。在整个时间间隔的1/5时间内，有100%的SM上的Tensor Core以100%利用率运行。其他组合模式。
频率（Clock）	DCGM_FI_DEV_SM_CLOCK	Gauge	MHz	表示SM时钟频率。
GPU异常/XID错误	DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS	Gauge	错误码	NVSwitch异常错误信息。数值为SXid错误码。
	DCGM_FI_DEV_ROW_REMAP_FAILURE	Gauge	-	出现行重映射错误异常。
	DCGM_FI_DEV_ROW_REMAP_PENDING	Gauge	-	出现行重映射阻塞异常。
温度&功率（Temperature & Power）	DCGM_FI_DEV_GPU_TEMP	Gauge	℃	表示GPU温度。
	DCGM_FI_DEV_MEMORY_TEMP	Gauge	℃	表示内存温度。
	DCGM_FI_DEV_POWER_USAGE	Gauge	W	表示功率。
停用的内存页面（Retired Pages）	DCGM_FI_DEV_RETIRED_SBE	Gauge	-	表示由单比特错误（Single Bit Error）而停用的页面个数。
停用的内存页面（Retired Pages）	DCGM_FI_DEV_RETIRED_DBE	Gauge	-	表示由双比特错误（Double Bit Error）而停用的页面个数。

RDMA指标

RDMA相关指标可以基于以下资源维度进行筛选：

app="nusa-exporter",
hostname="{{pod_name}}"
ip="172.16.17.114",
namespace="{{pod_namespace}}"
node="{{virtual-kubelet-nodename}}"
pod="{{pod_name}}"

指标名	指标类型	指标单位	指标说明
rdma_service_monitor_tx_bytes_rate rdma_service_monitor_rx_bytes_rate	Gauge	bytes	Pod RDMA网络出/入方向流量大小瞬时值。

rdma_service_monitor_tx_bytes rdma_service_monitor_rx_bytes	Counter	bytes	Pod RDMA网络出/入方向流量大小累计值。

rdma_service_monitor_tx_packets_rate rdma_service_monitor_rx_packets_rate	Gauge	packets	Pod RDMA网络出/入方向网络流量包数量瞬时值。
rdma_service_monitor_tx_packets rdma_service_monitor_rx_packets	Counter	packets	Pod RDMA网络出/入方向网络流量包数量累计值。