GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU监控场景。本文介绍监控大盘中各个监控面板(Panel)的含义。
Panel介绍
GPU监控2.0包含集群维度监控大盘和节点维度监控大盘。两种大盘的具体说明如下:
集群维度监控大盘
Panel名称 | 说明 |
---|---|
Total GPU Nodes | 表示集群(或节点池)总的GPU节点数。 |
Allocated GPUs | 表示集群(或节点池)总的GPU数以及已分配的GPU数。 |
Allocated GPU Memory | 表示集群(或节点池)已分配的显存占总的显存的百分比。 |
Used GPU Memory | 表示集群(或节点池)正在使用的显存占总的显存的百分比。 |
Average GPU Utilization | 表示集群(或节点池)的平均利用率。 |
GPU Memory Copy Utilization | 表示集群(或节点池)的平均内存复制利用率。 |
The Last one XID Error | 表示节点GPU卡上最近出现的XID错误。 |
GPU Pod Details | 表示申请GPU资源的Pod信息,包括:
|
GPU Node Details | 表示集群中GPU节点的信息,包括:
|
节点维度监控大盘
Panel组 | Panel名称 | 说明 |
---|---|---|
Overview | GPU Mode | 表示GPU模式,包括Exclusive、Share和None。
|
NVIDIA Driver Version | 表示节点所安装的GPU驱动版本。 | |
Allocated GPUs | 表示节点已分配GPU个数和总的GPU个数。 | |
GPU Utilization | 表示节点上的GPU的平均利用率,即节点上所有卡的GPU利用率算平均值。 | |
Allocated GPU Memory | 表示节点已分配的GPU显存值与总的显存值的百分比。 | |
Used GPU Memory | 表示节点当前使用的GPU显存值与总的显存值的百分比。 | |
Allocated Computing Power | 表示节点已分配的算力(共享GPU调度且申请算力调度时生效)。 | |
The Last One XID Error | 表示节点GPU卡最近出现的XID错误。 | |
Utilization | GPU Utilization | 表示节点GPU卡利用率。 |
Memory Copy Utilization | 表示节点GPU卡内存复制利用率。 | |
Encoder Engine Utilization | 表示节点GPU卡编码器利用率。 | |
Decoder Engine Utilization | 表示节点GPU卡解码器利用率。 | |
Memory and BAR1 | GPU Memory Details | 表示节点GPU内存信息:
|
BAR1 Used | 表示已使用BAR1。 | |
Memory Used | 表示节点上GPU卡已使用的显存大小。 | |
BAR1 Total | 表示总BAR1。 | |
Profiling | SM Occupancy | 表示SM占用率。 |
SM Active | 表示SM处于Active的比例。 | |
Tensor Core Engine Active | 表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 | |
FP32 Engine Active | 表示在一个监控周期内,FP32管道处于Active的时间占总的时间的比例。 | |
FP16 Engine Active | 表示在一个监控周期内,FP16管道处于Active的时间占总的时间的比例。 | |
FP64 Engine Active | 表示在一个监控周期内,FP64管道处于Active的时间占总的时间的比例。 | |
Graphics Engine Active | 表示在一个监控周期内,Graphics或Compute引擎处于Active的时间占总的时间的比例。 | |
DRAM Active | 表示内存带宽利用率(Memory BW Utilization)。 | |
PCIE TX BYTES(Device to Host) | 表示节点GPU卡通过PCIe总线传输的数据速率。 | |
PCIE RX BYTES(Host to Device) | 表示节点GPU卡通过PCIe总线接收的数据速率。 | |
NVLINK Bandwidth Total | 表示已接收或传输带宽大小。 | |
NVLINK TX/RX BYTES | 表示通过NVLink传输或接收的数据速率。 | |
GPU Process | GPU Process Details | 节点上GPU线程详细信息:
|
Temperature and Energy | Power Usage | 表示节点GPU卡的功率。 |
Total Energy Consumption | 表示GPU卡从驱动加载开始,总共消耗的能量。单位为焦耳。 | |
Memory Temperature | 表示节点GPU内存温度。 | |
GPU Temperature | 表示节点GPU温度(计算单元)。 | |
Clock | SM CLOCK | 表示SM时钟频率。 |
Memory Clock | 表示内存频率。 | |
APP SM Clock | 表示SM应用的时钟频率。 | |
APP Memory Clock | 表示应用的内存频率。 | |
Video Clock | 表示Video引擎频率。 | |
Clock Throttle Reasons | 表示降频原因。 | |
Retired Pages | Retired Pages(Single-bit Errors) | 表示因单比特错误引发的停用的内存页面数。 |
Retired Pages(Double-bit Error) | 表示因双比特错误引发的停用的内存页面数。 | |
Violation | POWER VIOLATION | 表示因功率上限导致的违规。该值为违规的时间,单位为微秒。 |
THERMAL VIOLATION | 表示因热限制导致的违规。该值为违规的时间,单位为微秒。 | |
BOARD RELIABILITY VIOLATION | 表示因电路板可靠性限制导致的违规。该值为违规的时间,单位为微秒。 | |
LOW UTIL VIOLATION | 表示因低利用率限制导致的违规。该值为违规的时间,单位为微秒。 | |
SYNC BOOST VIOLATION | 表示因同步提升限制导致的违规。该值为违规的时间,单位为微秒。 | |
BOARD LIMIT VIOLATION | 表示因电路板限制导致的违规。该值为违规的时间,单位为微秒。 |