GPU监控基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU监控场景。本文介绍监控大盘中各个监控面板(Panel)的含义。
Panel介绍
GPU监控包含集群GPU监控-集群维度、集群GPU监控-节点维度以及集群GPU监控-应用Pod维度。监控大盘的具体说明如下:
集群GPU监控-集群维度
|
Panel名称 |
说明 |
|
Total GPU Nodes |
表示集群(或节点池)总的GPU节点数。 |
|
Allocated GPUs |
表示集群(或节点池)总的GPU数以及已分配的GPU数。 |
|
Allocated GPU Memory |
表示集群(或节点池)已分配的显存占总的显存的百分比。 |
|
Used GPU Memory |
表示集群(或节点池)正在使用的显存占总的显存的百分比。 |
|
Average GPU Utilization |
表示集群(或节点池)的平均利用率。 |
|
GPU Memory Copy Utilization |
表示集群(或节点池)的平均内存复制利用率。 |
|
The Last one XID Error |
表示节点GPU卡上最近出现的XID错误。 |
|
GPU Node Details |
表示集群中GPU节点的信息,包括:
|
集群GPU监控-节点维度
|
Panel组 |
Panel名称 |
说明 |
|
Overview |
GPU Mode |
表示GPU模式,包括Exclusive、Share和None。
|
|
NVIDIA Driver Version |
表示节点所安装的GPU驱动版本。 |
|
|
Allocated GPUs |
表示节点已分配GPU个数和总的GPU个数。 |
|
|
GPU Utilization |
表示节点上的GPU的平均利用率,即节点上所有卡的GPU利用率算平均值。 |
|
|
Allocated GPU Memory |
表示节点已分配的GPU显存值与总的显存值的百分比。 |
|
|
Used GPU Memory |
表示节点当前使用的GPU显存值与总的显存值的百分比。 |
|
|
Allocated Computing Power(Valid in GPU Sharing) |
表示节点已分配的算力(共享GPU调度且申请算力调度时生效)。 |
|
|
The Last One XID Error |
表示节点GPU卡最近出现的XID错误。 |
|
|
Utilization |
GPU Utilization |
表示节点GPU卡利用率。 |
|
GPU Memory Copy Utilization |
表示节点GPU卡内存复制利用率。 |
|
|
Encoder Engine Utilization |
表示节点GPU卡编码器利用率。 |
|
|
Decoder Engine Utilization |
表示节点GPU卡解码器利用率。 |
|
|
Memory & BAR1 |
GPU Memory Details |
表示节点GPU内存信息:
|
|
BAR1 Used |
表示已使用BAR1。 |
|
|
GPU Memory Used |
表示节点上GPU卡已使用的显存大小。 |
|
|
BAR1 Total |
表示总BAR1。 |
|
|
GPU Process |
GPU Process Details |
节点上GPU线程详细信息:
|
|
Illegal GPU Process(GPU request not by k8s resources.limits) Details |
非法的GPU进程(GPU请求未遵循Kubernetes资源限制)详情。将显示以如下方式申请的GPU进程:
|
|
|
Profiling |
Graphics Engine Active |
表示在一个监控周期内,Graphics或Compute引擎处于Active的时间占总的时间的比例。 |
|
DRAM Active |
表示内存带宽利用率(Memory BW Utilization)。 |
|
|
SM Active |
表示SM处于Active的比例。 |
|
|
SM Occupancy |
表示SM占用率。 |
|
|
Tensor Core Engine Active |
表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 |
|
|
FP32 Engine Active |
表示在一个监控周期内,FP32管道处于Active的时间占总的时间的比例。 |
|
|
FP16 Engine Active |
表示在一个监控周期内,FP16管道处于Active的时间占总的时间的比例。 |
|
|
FP64 Engine Active |
表示在一个监控周期内,FP64管道处于Active的时间占总的时间的比例。 |
|
|
PCIE TX Bytes(Device to Host) |
表示节点GPU卡通过PCIe总线传输的数据速率。 |
|
|
PCIE RX Bytes(Host to Device) |
表示节点GPU卡通过PCIe总线接收的数据速率。 |
|
|
NVLINK TX Bytes |
表示通过NVLink传输或接收的数据速率。 |
|
|
NVLINK RX Bytes |
表示通过NVLink传输或接收的数据速率。 |
|
|
Temperature & Energy |
Power Usage |
表示节点GPU卡的功率。 |
|
Toal Energy Consumption(in J) |
表示GPU卡从驱动加载开始,总共消耗的能量。单位为焦耳。 |
|
|
Memory Temperature |
表示节点GPU内存温度。 |
|
|
GPU Temperature |
表示节点GPU温度(计算单元)。 |
|
|
Clock |
SM CLOCK |
表示SM时钟频率。 |
|
Memory Clock |
表示内存频率。 |
|
|
APP SM Clock |
表示SM应用的时钟频率。 |
|
|
APP Memory Clock |
表示应用的内存频率。 |
|
|
Video Clock |
表示Video引擎频率。 |
|
|
Clock Throttle Reasons |
表示降频原因。 |
|
|
Retired Pages |
Retired Pages(Single-bit Errors) |
表示因单比特错误引发的停用的内存页面数。 |
|
Retired Pages(Double-bit Errors) |
表示因双比特错误引发的停用的内存页面数。 |
|
|
Violation |
Power Violation |
表示因功率上限导致的违规。该值为违规的时间,单位为微秒。 |
|
Thermal Violation |
表示因热限制导致的违规。该值为违规的时间,单位为微秒。 |
|
|
Sync Boost Violation |
表示因同步提升限制导致的违规。该值为违规的时间,单位为微秒。 |
|
|
Board Limit Violation |
表示因电路板限制导致的违规。该值为违规的时间,单位为微秒。 |
|
|
Board Relability Violation |
表示因电路板可靠性限制导致的违规。该值为违规的时间,单位为微秒。 |
|
|
Low Util Violation |
表示因低利用率限制导致的违规。该值为违规的时间,单位为微秒。 |
集群GPU监控-应用Pod维度
|
Panel组 |
Panel名称 |
说明 |
|
Overview |
GPU Pod Details |
表示申请GPU资源的Pod信息,包括:
|
|
Pod Metrics(GPU Device) |
Pods Used GPU Memory |
表示Pod正在使用的显存大小。 |
|
Pods GPU Memory Used Percentage |
表示Pod所使用的GPU内存占总可用GPU内存的百分比。 |
|
|
Pods GPU Memory Copy Utilization |
表示Pod内存拷贝利用率。 |
|
|
Pods Average SM Utilization |
表示Pod平均的SM利用率。 |
|
|
Pods GPU Decode Utilization |
表示Pod解码器利用率。 |
|
|
Pods GPU Encode Utilization |
表示Pod编码器利用率。 |
|
|
Pods Metrics(Host Resource) |
Memory Percent |
表示内存使用百分比。 |
|
Memory Usage |
表示内存使用量。 |
|
|
CPU Usage By Cores |
表示按核心分的CPU使用情况。 |
|
|
CPU Usage Percent |
表示CPU使用百分比。 |
|
|
Network Bandwidth Usage |
表示网络带宽使用量。 |
|
|
Network Socket |
表示网络套接字。 |
|
|
File System |
表示文件系统。 |
|
|
Process Number |
表示进程数量。 |
|
|
GPU Utilization(Associated with Pod) |
GPU Utilization |
表示应用GPU卡利用率。 |
|
GPU Memory Copy Utilization |
表示应用的GPU卡内存复制利用率。 |
|
|
Encoder Engine Utilization |
表示应用的GPU卡编码器利用率。 |
|
|
Decoder Engine Utilization |
表示应用的GPU卡解码器利用率。 |
|
|
GPU Memory & BAR1(Associated with Pod) |
GPU Memory Details |
表示应用GPU内存信息:
|
|
GPU Memory Used |
表示应用GPU卡已使用的显存大小。 |
|
|
GPU Memory Used Percentage |
表示应GPU内存使用百分比 |
|
|
BAR1 Used |
表示已使用BAR1。 |
|
|
BAR1 Total |
表示总BAR1。 |
|
|
GPU Profiling(Associated with Pod) |
Graphics Engine Active |
表示在一个监控周期内,Graphics或Compute引擎处于Active的时间占总的时间的比例。 |
|
DRAM Active |
表示内存带宽利用率(Memory BW Utilization)。 |
|
|
SM Active |
表示SM处于Active的比例。 |
|
|
SM Occupancy |
表示SM占用率。 |
|
|
Tensor Core Engine Active |
表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 |
|
|
FP32 Engine Active |
表示在一个监控周期内,FP32管道处于Active的时间占总的时间的比例。 |
|
|
FP16 Engine Active |
表示在一个监控周期内,FP16管道处于Active的时间占总的时间的比例。 |
|
|
FP64 Engine Active |
表示在一个监控周期内,FP64管道处于Active的时间占总的时间的比例。 |
|
|
PCIE TX Bytes(Device to Host) |
表示应用GPU卡通过PCIe总线传输的数据速率。 |
|
|
PCIE RX Bytes(Host to Device) |
表示应用GPU卡通过PCIe总线接收的数据速率。 |
|
|
NVLINK TX Bytes |
表示通过NVLink传输或接收的数据速率。 |
|
|
NVLINK RX Bytes |
表示通过NVLink传输或接收的数据速率。 |
|
|
GPU Temperature & Energy(Associated with Pod) |
Power Usage |
表示应用GPU卡的功率。 |
|
Toal Energy Consumption(in J) |
表示GPU卡从驱动加载开始,总共消耗的能量。单位为焦耳。 |
|
|
Memory Temperature |
表示应用GPU内存温度。 |
|
|
GPU Temperature |
表示应用GPU温度(计算单元)。 |
|
|
GPU Clock(Associated with Pod) |
SM CLOCK |
表示SM时钟频率。 |
|
Memory Clock |
表示内存频率。 |
|
|
APP SM Clock |
表示SM应用的时钟频率。 |
|
|
APP Memory Clock |
表示应用的内存频率。 |
|
|
Video Clock |
表示Video引擎频率。 |
|
|
Clock Throttle Reasons |
表示降频原因。 |