Overview |
GPU Mode |
表示GPU模式,包括Exclusive、Share和None。
- Exclusive:独占模式,按卡的维度申请GPU资源。
- Share:共享模式,按显存和算力维度申请GPU资源。
- None:当前节点上无GPU应用在运行。一个节点可以在独占和共享模式之间切换,当不运行GPU程序时,无法探测该节点开启独占或共享模式。
|
NVIDIA Driver Version |
表示节点所安装的GPU驱动版本。 |
Allocated GPUs |
表示节点已分配GPU个数和总的GPU个数。 |
GPU Utilization |
表示节点上的GPU的平均利用率,即节点上所有卡的GPU利用率算平均值。 |
Allocated GPU Memory |
表示节点已分配的GPU显存值与总的显存值的百分比。 |
Used GPU Memory |
表示节点当前使用的GPU显存值与总的显存值的百分比。 |
Allocated Computing Power |
表示节点已分配的算力(共享GPU调度且申请算力调度时生效)。 |
The Last One XID Error |
表示节点GPU卡最近出现的XID错误。 |
Utilization |
GPU Utilization |
表示节点GPU卡利用率。 |
Memory Copy Utilization |
表示节点GPU卡内存复制利用率。 |
Encoder Engine Utilization |
表示节点GPU卡编码器利用率。 |
Decoder Engine Utilization |
表示节点GPU卡解码器利用率。 |
Memory and BAR1 |
GPU Memory Details |
表示节点GPU内存信息:
- UUID:GPU卡的UUID。
- GPU Index:GPU卡索引号。
- Mode Name:卡型号。
- Used:该卡当前使用的显存。
- Allocated:已分配显存与总的显存比例。
- Total:该卡总的显存。
|
BAR1 Used |
表示已使用BAR1。 |
Memory Used |
表示节点上GPU卡已使用的显存大小。 |
BAR1 Total |
表示总BAR1。 |
Profiling |
SM Occupancy |
表示SM占用率。 |
SM Active |
表示SM处于Active的比例。 |
Tensor Core Engine Active |
表示在一个监控周期内,Tensor Core管道(Pipe)处于Active时间占总时间的比例。 |
FP32 Engine Active |
表示在一个监控周期内,FP32管道处于Active的时间占总的时间的比例。 |
FP16 Engine Active |
表示在一个监控周期内,FP16管道处于Active的时间占总的时间的比例。 |
FP64 Engine Active |
表示在一个监控周期内,FP64管道处于Active的时间占总的时间的比例。 |
Graphics Engine Active |
表示在一个监控周期内,Graphics或Compute引擎处于Active的时间占总的时间的比例。 |
DRAM Active |
表示内存带宽利用率(Memory BW Utilization)。 |
PCIE TX BYTES(Device to Host) |
表示节点GPU卡通过PCIe总线传输的数据速率。 |
PCIE RX BYTES(Host to Device) |
表示节点GPU卡通过PCIe总线接收的数据速率。 |
NVLINK Bandwidth Total |
表示已接收或传输带宽大小。 |
NVLINK TX/RX BYTES |
表示通过NVLink传输或接收的数据速率。 |
GPU Process |
GPU Process Details |
节点上GPU线程详细信息:
- Pod Namespace:Process所属的Pod命名空间。
- Pod Name:Process所属的Pod名称。
- Container Name:Process所属的容器名称。
- Allocate Mode:Process所属的Pod以哪种方式申请GPU资源,包括独占和共享方式。
- Process Id:Process的ID号。
- Process Name:Process名称。
- Process Type:Process类型,包括计算类(C)和图形(G)类任务。
- GPU Index:Process在哪张GPU卡上运行。
- Used Memory:Process使用的GPU显存。
- SM Utilization:Process的SM利用率。
- Memory Copy Utilization:内存复制利用率。
- Decode Utilization:解码器利用率。
- Encode Utilization:编码器利用率。
|
Temperature and Energy |
Power Usage |
表示节点GPU卡的功率。 |
Total Energy Consumption |
表示GPU卡从驱动加载开始,总共消耗的能量。单位为焦耳。 |
Memory Temperature |
表示节点GPU内存温度。 |
GPU Temperature |
表示节点GPU温度(计算单元)。 |
Clock |
SM CLOCK |
表示SM时钟频率。 |
Memory Clock |
表示内存频率。 |
APP SM Clock |
表示SM应用的时钟频率。 |
APP Memory Clock |
表示应用的内存频率。 |
Video Clock |
表示Video引擎频率。 |
Clock Throttle Reasons |
表示降频原因。 |
Retired Pages |
Retired Pages(Single-bit Errors) |
表示因单比特错误引发的停用的内存页面数。 |
Retired Pages(Double-bit Error) |
表示因双比特错误引发的停用的内存页面数。 |
Violation |
POWER VIOLATION |
表示因功率上限导致的违规。该值为违规的时间,单位为微秒。 |
THERMAL VIOLATION |
表示因热限制导致的违规。该值为违规的时间,单位为微秒。 |
BOARD RELIABILITY VIOLATION |
表示因电路板可靠性限制导致的违规。该值为违规的时间,单位为微秒。 |
LOW UTIL VIOLATION |
表示因低利用率限制导致的违规。该值为违规的时间,单位为微秒。 |
SYNC BOOST VIOLATION |
表示因同步提升限制导致的违规。该值为违规的时间,单位为微秒。 |
BOARD LIMIT VIOLATION |
表示因电路板限制导致的违规。该值为违规的时间,单位为微秒。 |