ACS GPU Pod监控指标说明

更新时间:2025-04-10 03:02:12

GPU监控基于Exporter+Prometheus+Grafana体系提供更为丰富的GPU可观性场景,您可以使用基于容器服务开发的GPU Exporter监控指标构建Grafana大盘。本文介绍GPU监控指标的详细信息。

指标计费说明

GPU监控使用GPU Exporter兼容开源DCGM Exporter提供的监控指标。以下GPU监控指标均为基础指标,传入到Prometheus不会产生额外的费用。如果您使用其他自定义指标,则会产生额外的费用。具体收费策略,请参见计费概述

指标列表

DCGM指标

DCGM相关指标可以基于以下资源维度进行筛选:

  • namespace="{{pod_namespace}}"

  • pod="{{pod_name}}"

  • pod_name="{{pod_name}}"

  • node="virtual-kubelet-xxx"

  • Hostname="{{pod_name}}"

  • modelName="example-model"

  • gpu="0"

  • device="nvidia0"

指标维度

指标名

指标类型

指标单位

指标说明

指标维度

指标名

指标类型

指标单位

指标说明

GPU资源指标

DCGM_FI_DEV_GPU_UTIL

Gauge

%

表示GPU利用率,即在一个周期时间内(1s1/6s,根据GPU产品而定),一个或多个核函数处于Active状态的时间。

该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况。

DCGM_FI_DEV_FB_USED

Gauge

MiB

表示显存(帧缓存)已使用数。

DCGM_FI_DEV_FB_TOTAL

Gauge

MiB

表示显存(帧缓存)总大小。

DCGM_FI_DEV_ENC_UTIL

Gauge

%

表示编码器利用率。

DCGM_FI_DEV_DEC_UTIL

Gauge

%

表示解码器利用率。

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

%

表示内存带宽利用率。

以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。

剖析(Profiling)

DCGM_FI_PROF_SM_ACTIVE

Gauge

%

表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。

该值表示所有SM的平均值,且该值对每个块的线程数不敏感。

线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。

该值小于0.5表示未高效利用GPU,大于0.8是必要的。

假设一个GPUNSM:

一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。

一个核函数在一个时间间隔内运行N/5个线程块,此时该值为0.2。

一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。

DCGM_FI_PROF_SM_OCCUPANCY

Gauge

%

表示在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。

该值表示一个时间间隔内的所有SM的平均值。

占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载(DCGM_FI_PROF_DRAM_ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

%

表示内存带宽利用率(Memory BW Utilization)是将数据发送到设备内存或从设备内存接收数据的周期分数。

该值表示时间间隔内的平均值,而不是瞬时值。

较高的值表示设备内存的利用率较高。

该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8(80%)是可实现的最大值)。

假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。

  • DCGM_FI_PROF_NVLINK_RX_BYTES

  • DCGM_FI_PROF_NVLINK_TX_BYTES

Counter

B/s

表示通过NVLink传输/接收的数据速率,不包括协议标头。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。

  • DCGM_FI_PROF_PCIE_RX_BYTES

  • DCGM_FI_PROF_PCIE_TX_BYTES

Counter

B/s

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

%

表示Tensor(HMMA/IMMA)Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值表示Tensor Cores的利用率较高。

该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。

假设该值为0.2(20%),可能有如下情况:

  • 在整个时间间隔内,有20%的SMTensor Core100%的利用率运行。

  • 在整个时间间隔内,有100%的SMTensor Core20%的利用率运行。

  • 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core100%利用率运行。

  • 其他组合模式。

频率(Clock)

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

表示SM时钟频率。

GPU异常/XID错误

DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS

Gauge

错误码

NVSwitch异常错误信息。

数值为SXid错误码。

DCGM_FI_DEV_ROW_REMAP_FAILURE

Gauge

-

出现行重映射错误异常。

DCGM_FI_DEV_ROW_REMAP_PENDING

Gauge

-

出现行重映射阻塞异常。

温度&功率(Temperature & Power)

DCGM_FI_DEV_GPU_TEMP

Gauge

表示GPU温度。

DCGM_FI_DEV_MEMORY_TEMP

Gauge

表示内存温度。

DCGM_FI_DEV_POWER_USAGE

Gauge

W

表示功率。

停用的内存页面(Retired Pages)

DCGM_FI_DEV_RETIRED_SBE

Gauge

-

表示由单比特错误(Single Bit Error)而停用的页面个数。

DCGM_FI_DEV_RETIRED_DBE

Gauge

-

表示由双比特错误(Double Bit Error)而停用的页面个数。

RDMA指标

RDMA相关指标可以基于以下资源维度进行筛选:

  • app="nusa-exporter",

  • hostname="{{pod_name}}"

  • ip="172.16.17.114",

  • namespace="{{pod_namespace}}"

  • node="{{virtual-kubelet-nodename}}"

  • pod="{{pod_name}}"

指标名

指标类型

指标单位

指标说明

指标名

指标类型

指标单位

指标说明

  • rdma_service_monitor_tx_bytes_rate

  • rdma_service_monitor_rx_bytes_rate

Gauge

bytes

Pod RDMA网络出/入方向流量大小瞬时值。

  • rdma_service_monitor_tx_bytes

  • rdma_service_monitor_rx_bytes

Counter

bytes

Pod RDMA网络出/入方向流量大小累计值。

  • rdma_service_monitor_tx_packets_rate

  • rdma_service_monitor_rx_packets_rate

Gauge

packets

Pod RDMA网络出/入方向网络流量包数量瞬时值。

  • rdma_service_monitor_tx_packets

  • rdma_service_monitor_rx_packets

Counter

packets

Pod RDMA网络出/入方向网络流量包数量累计值。

  • 本页导读 (0)
  • 指标计费说明
  • 指标列表
  • DCGM指标
  • RDMA指标