服务监控仪表盘指标全解-人工智能平台 PAI-阿里云

EAS服务部署成功后，您可以在服务监控页面查看相关指标，了解服务的调用和运行情况。本文介绍如何查看服务监控信息并提供监控指标的详细说明。

查看服务监控信息

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
单击目标服务监控列下的，进入监控页签。
查看服务监控信息。
切换仪表盘
仪表盘分为服务和实例维度，切换方式如下：
- Service：服务维度，默认服务监控仪表盘名称格式为Service-<service_name>，其中<service_name>是EAS服务的名称。
- Instance：实例维度，分单实例和多实例。
  - Single Instance：单实例监控仪表盘，支持切换不同实例查看。
  - Multiple Instance：多实例监控仪表盘，可自由选择多个实例对比查看。
切换时间范围
单击监控区域右侧的，来切换仪表盘展示的时间范围。
重要
目前分钟级监控指标最多保留1个月，秒级监控指标最多保留1个小时。

监控指标说明

服务监控仪表盘（分钟级）

您可以在该仪表盘监控以下指标：

指标		说明
QPS		服务每秒的请求数。不同返回码的请求数会分开计算。如果服务包含多个实例，则此处的指标为所有实例之和。其中，1d offset表示前一天同一时间的QPS数据，可用于分析环比数据。
Response		服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例，则此处的指标为所有实例之和。
RT		请求的响应时间。 Avg：表示该时间点所有请求的平均响应时间。 TPXX：表示将该时间点所有请求时间从低到高排序后，前百分之XX请求的最大响应时间。例如：TP5表示前百分之五请求的最大响应时间；TP100表示所有请求的最大响应时间。如果服务包含多个实例，TP100表示所有实例的请求最大响应时间；其他TPXX为所有实例TPXX的均值，如TP5表示所有实例TP5的均值。
Daily Invoke		服务每天的调用量，不同返回码的调用量会分开计算。如果服务包含多个实例，则此处的指标为所有实例之和。

更多指标（CPU | Memory | GPU | Network | Resources）

指标		说明
CPU	CPU	服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例，则此处的指标为所有实例的平均值。
	CPU Utilization	服务在该时间点CPU平均使用率。计算方法：CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例，则此处的指标为所有实例的平均值。
	CPU Total	服务在该时间点可用的CPU总核数。计算方法为：单实例可用CPU核数 × 服务实例数。
Memory	Memory	服务在该时间点的内存平均使用量。如果服务包含多个实例，则此处的指标为所有实例的平均值。 RSS：表示常驻物理内存大小。 Cache：表示缓存大小。 Total：表示单个实例最大可用的物理内存大小。
Memory	Memory Utilization	服务在该时间点的内存平均使用率。计算方法为：内存RSS ÷ 内存Total。如果服务包含多个实例，则此处的指标为所有实例的平均值。
GPU	GPU Utilization	如果部署的服务使用了GPU，该指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例，则此处的指标为所有实例的平均值。
	GPU Memory	如果部署的服务使用了GPU，该指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例，则此处的指标为所有实例的平均值。
	GPU Total	如果部署的服务使用了GPU，该指标表示服务在该时间点的GPU总量。如果服务包含多个实例，则此处的指标为所有实例的GPU总和。
	GPU Memory Utilization	如果部署的服务使用了GPU，该指标表示服务在该时间点的GPU显存的使用率。如果服务包含多个实例，则此处的指标为所有实例的平均值。
Network	Traffic	服务接收和发出的流量大小，单位为比特每秒。如果服务包含多个实例，则此处的指标为所有实例的平均值。其中： In：表示服务接收的流量。 Out：表示服务发出的流量。
Network	TCP Connections	TCP连接数。
Resources	Replicas	服务在该时间点不同状态的实例数，分为Total、Pending、Available。
Resources	Replicas By Resource	服务在该时间点不同资源类型的实例数，分为Total、Dedicated（专属资源）、Public（公共资源）。

单实例监控仪表盘（分钟级）

您可以在该仪表盘监控以下指标：

指标	说明
QPS	该实例每秒接收的请求数。不同返回码的请求数会分开计算。
RT	该实例请求的响应时间。
Response	该实例在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。

更多指标（CPU | Memory | GPU | Network | Resources）

指标		说明
CPU	CPU	该实例的CPU使用量，单位为核数。
CPU	CPU Utilization	该实例在该时间点CPU平均使用率。计算方法为：CPU平均使用量 ÷ 最大可用核数。
Memory	Memory	该实例的内存使用量。 RSS：表示常驻物理内存大小。 Cache：表示缓存大小。 Total：表示单个实例最大可用的物理内存大小。
Memory	Memory Utilization	该实例在该时间点的内存平均使用率。计算方法为：内存RSS ÷ 内存Total。
GPU	GPU Utilization	该实例的GPU使用率。
	GPU Memory	该实例的GPU显存使用量。
	GPU Memory Utilization	该实例的GPU显存使用率。
Network	Traffic	该实例接收和发出的流量大小，单位为比特每秒。其中： In：表示该实例接收的流量。 Out：表示该实例发出的流量。
Network	TCP Connections	TCP连接数。

多实例监控仪表盘

提供分钟级、秒级监控指标如下。

Minute-Level（分钟级）

指标	说明
Instance QPS	每个实例每秒的请求数。不同返回码的请求数会分开计算。
Instance RT	每个实例的平均响应时间。
Instance CPU	每个实例的CPU使用量，单位为核数。
Instance Memory -- RSS	每个实例常驻物理内存大小。
Instance Memory -- Cache	每个实例缓存大小。
Instance GPU	每个实例GPU使用率。
Instance GPU Memory	每个实例GPU显存的使用量。
Instance TCP Connections	每个实例TCP连接数。

Second-Level（秒级）
重要
数据精度精确到5秒级别，只保留最近1个小时的数据。
指标
说明
Instance QPS Fine
每个实例每秒接收的请求数。不同返回码的请求数会分开计算。
Instance RT Fine
每个实例接收到请求的平均响应时间。

GPU监控仪表盘

支持在服务和实例级别监控以下GPU指标。如果是服务级别，则指标是所有实例的平均值。

指标	说明
GPU Utilization	服务在该时间点的GPU使用率。
GPU Memory	服务在该时间点的GPU显存使用量与显存总量。 Used：表示该时间点的GPU显存使用量。 Total：表示该时间点的GPU显存总量。
Memory Copy Utilization	服务在该时间点的GPU显存复制利用率。
GPU Memory Utilization	服务在该时间点的GPU显存使用率，计算方法为：显存使用量 ÷ 显存总量。
PCIe	服务在该时间点的通过DCGM测量的PCIe（Peripheral Component Interconnect Express，高速串行计算机扩展总线标准）速率。 PCIe Transmit：表示该时间点的PCIe传输速率。 PCIe Receive：表示该时间点的PCIe接收速率。
Memory Bandwidth	服务在该时间点的GPU显存带宽指标。
SM Utilization and Occupancy	服务在该时间点的SM（Streaming Multiprocessor，流式多处理器）相关指标，SM是GPU的核心组成部分，负责执行和调度并行计算任务。 SM Utilization：表示该时间点的SM利用率。 SM Occupancy：表示该时间点的SM上驻留的Warp线程数比例。
Graphics Engine Utilization	服务在该时间点的GPU图形引擎利用率。
Pipe Active Ratio	服务在该时间点的GPU运算管道的活跃率。 Pipe Fp32 Active Ratio：表示该时间点的FP32管道活跃率。 Pipe Fp16 Active Ratio：表示该时间点的Fp16管道活跃率。 Pipe Tensor Active Ratio：表示该时间点的Tensor管道活跃率。
Tflops Usage	服务在该时间点的GPU运算管道的Tflops（Tera floating-point operations per second，每秒万亿次浮点运算）运算量。 FP32 Tflops Used：表示该时间点的FP32管道Tflops运算量。 FP16 Tflops Used：表示该时间点的Fp16管道Tflops运算量。 Tensor Tflops Used：表示该时间点的Tensor管道Tflops运算量。
DRAM Active Ratio	服务在该时间点的GPU设备显存接口发送或接收数据的活跃率。
SM Clock	服务在该时间点的SM时钟频率。
GPU Temperature	服务在该时间点的GPU温度相关指标。 GPU Temperature：表示该时间点的GPU温度。 GPU Slowdown Temperature：表示该时间点的GPU降频温度阈值；当GPU温度达到该值时，GPU将自动降低其工作频率，以避免GPU设备过热。 GPU Shutdown Temperature：表示该时间点的GPU关机温度阈值；当GPU温度达到该值时，系统将强制关停GPU设备以防止GPU因过热而导致硬件损坏或引发更严重的系统故障。
Power Usage	服务在该时间点的GPU功耗。

以下是GPU健康状态与异常信息指标：

指标	说明
GPU Health Count	服务在该时间点的健康GPU卡数。
GPU Lost Card Num	服务在该时间点的GPU掉卡数。
ECC Error Count	服务在该时间点的ECC错误数。ECC（Error Correction Code，错误校验码）用于检测和纠正GPU显存数据传输或存储过程中的错误。 Volatile SBE ECC Error：表示服务在该时间点的单比特易失性ECC错误数。 Volatile DBE ECC Error：表示服务在该时间点的双比特易失性ECC错误数。 Aggregate SBE ECC Error：表示服务在该时间点的单比特持久性ECC错误数。 Aggregate DBE ECC Error：表示服务在该时间点的双比特持久性ECC错误数。 Uncorrectable ECC Error：表示服务在该时间点的无法纠正的ECC错误数。
NVSwitch Error Count	服务在该时间点的NVSwitch错误数。NVSwitch 提供高带宽和低延迟的通信通道，负责多GPU之间的高速通信。 NVSwitch Fatal Error：表示服务在该时间点的致命NVSwitch错误数。 NVSwitch Non-Fatal Error：表示服务在该时间点的非致命NVSwitch错误数。
Xid Error Count	服务在该时间点的Xid错误数。Xid错误是GPU驱动程序报告的错误代码，用于指示GPU在运行过程中遇到的问题，这些错误通常通过系统日志（如Linux的dmesg或Windows的事件查看器）记录，并以Xid代码的形式表示。 Xid Error：表示服务在该时间点的非致命Xid错误数。 Fatal Xid Error：表示服务在该时间点的致命Xid错误数。
Kernel Error Count	服务在该时间点的非Xid错误数。非Xid错误（Non-Xid Errors）指的是除了Xid错误之外，由内核日志中报告的其他类型错误。
Driver Hang	服务在该时间点的GPU驱动挂起次数。
Remap Status	服务在该时间点GPU在尝试重映射显存行时的状态。

VLLM监控仪表盘

如果服务有多个实例，以下吞吐相关指标是实例的总和，延迟相关指标是实例的均值。

指标	说明
Requests Num	服务在该时间点的所有请求数。 Running：表示该时间点正在GPU上运行的请求数。 Waiting：表示该时间点等待处理的请求数。 Swapped：表示该时间点被交换至CPU上的请求数。
Token Throughput	服务在该时间点所有请求的输入与生成的Token数。 TPS_IN：表示该时间点输入的Token数。 TPS_OUT：表示该时间点输出的Token数。
Time To First Token	服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。 Avg：表示该时间点所有请求的首token延迟的平均值。 TPXX：表示该时间点所有请求的首token延迟的各个分位点值。
Time Per Output Token	服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。 Avg：表示该时间点所有请求的每token延迟的平均值。 TPXX：表示该时间点所有请求的每token延迟的各个分位点值。
E2E Request Latency	服务在该时间点所有请求的端到端延时。端到端延时表示从接收到请求到返回所有Token的时间。 Avg：表示该时间点所有请求的端到端延迟的平均值。 TPXX：表示该时间点所有请求的端到端延迟的各个分位点值。
Request Params N	服务在该时间点所有请求的参数N的平均值。
GPU Cache Usage	服务在该时间点的 GPU KV缓存平均使用率。
CPU Cache Usage	服务在该时间点的 CPU KV缓存平均使用率。
Prefix Cache Hit Rate	服务在该时间点所有请求的 Prefix缓存平均命中率。 GPU：表示该时间点所有请求的GPU Prefix缓存平均命中率。 CPU：表示该时间点所有请求的CPU Prefix缓存平均命中率。

BladeLLM监控仪表盘

如果服务有多个实例，以下吞吐相关指标是实例的总和，延迟相关指标是实例的均值。

指标	说明
Token Throughput	服务在该时间点所有请求的输入与输出的Token数。 TPS_IN：表示该时间点输入的Token数。 TPS_OUT：表示该时间点输出的Token数。
Prompt Length	服务在该时间点所有请求的Prompt Token数的平均值。
Time To First Token	服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。 Avg：表示该时间点所有请求的首token延迟的平均值。 Min：表示该时间点所有请求的首token延时的最小值。 TPXX：表示该时间点所有请求的首token延迟的各个分位点值。
Time Per Output Token	服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。 Avg：表示该时间点所有请求的每token延迟的平均值。 Min：表示该时间点所有请求的每token延时的最小值。 TPXX：表示该时间点所有请求的每token延迟的各个分位点值。
Decode Latency	服务在该时间点处理Decode的耗时。
Ragged Latency	服务在该时间点处理的batch中同时包含prefill和decode请求时的耗时。
Prefill Batch Size	服务在该时间点处理prefill batch的batch大小。
Decode Batch Size	服务在该时间点处理decode batch的batch大小。
GPU Block Usage	服务在该时间点的 GPU kv cache的平均block利用率。
Wait Queue Size	服务在该时间点的待调度请求的排队长度。
Scheduler Step Latency	服务在该时间点所有请求的调度器调度耗时。
Worker Bubble	服务在该时间点GPU worker的平均空闲时间。
Updated Tokens	服务在该时间点worker生成token的平均耗时。
Chunk Util	服务在该时间点prefill的tokens占chunk_size的百分比。

服务监控说明