EAS服务部署成功后,您可以在服务监控页面查看相关指标,了解服务的调用和运行情况。本文介绍如何查看服务监控信息并提供监控指标的详细说明。
查看服务监控信息
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
单击目标服务名称进入详情页面,切换到监控页签。
查看服务监控信息。
切换仪表盘
仪表盘分为服务和实例维度,切换方式如下:

Service:服务维度,默认服务监控仪表盘名称格式为
Service-<service_name>,其中<service_name>是EAS服务的名称。Instance:实例维度,分单实例和多实例。
Single Instance:单实例监控仪表盘,支持切换不同实例查看。

Multiple Instance:多实例监控仪表盘,可自由选择多个实例对比查看。

切换时间范围
单击监控区域右侧的
,切换仪表盘展示的时间范围。
重要目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。
重要当服务标签配置了
ServiceEngineType : vllm或ServiceEngineType : sglang时,会展示LLM相关的监控项。
监控指标说明
服务监控仪表盘(分钟级)
您可以在该仪表盘监控以下指标:
指标 | 说明 | |
QPS | 服务每秒的请求数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。其中,1d offset表示前一天同一时间的QPS数据,可用于分析环比数据。 | |
Response | 服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 | |
RT | 请求的响应时间。
| |
Daily Invoke | 服务每天的调用量,不同返回码的调用量会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 | |
单实例监控仪表盘(分钟级)
您可以在该仪表盘监控以下指标:
指标 | 说明 |
QPS | 该实例每秒接收的请求数。不同返回码的请求数会分开计算。 |
RT | 该实例请求的响应时间。 |
Response | 该实例在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。 |
多实例监控仪表盘
提供分钟级、秒级监控指标如下。
Minute-Level(分钟级)
指标
说明
Instance QPS
每个实例每秒的请求数。不同返回码的请求数会分开计算。
Instance RT
每个实例的平均响应时间。
Instance CPU
每个实例的CPU使用量,单位为核数。
Instance Memory -- RSS
每个实例常驻物理内存大小。
Instance Memory -- Cache
每个实例缓存大小。
Instance GPU
每个实例GPU使用率。
Instance GPU Memory
每个实例GPU显存的使用量。
Instance TCP Connections
每个实例TCP连接数。
Second-Level(秒级)
重要数据精度精确到5秒级别,只保留最近1个小时的数据。
指标
说明
Instance QPS Fine
每个实例每秒接收的请求数。不同返回码的请求数会分开计算。
Instance RT Fine
每个实例接收到请求的平均响应时间。
GPU监控仪表盘
支持在服务和实例级别监控以下GPU指标。如果是服务级别,则指标是所有实例的平均值。
指标 | 说明 |
GPU Utilization | 服务在该时间点的GPU使用率。 |
GPU Memory | 服务在该时间点的GPU显存使用量与显存总量。
|
Memory Copy Utilization | 服务在该时间点的GPU显存复制利用率。 |
GPU Memory Utilization | 服务在该时间点的GPU显存使用率,计算方法为:显存使用量 ÷ 显存总量。 |
PCIe | 服务在该时间点的通过DCGM测量的PCIe(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)速率。
|
Memory Bandwidth | 服务在该时间点的GPU显存带宽指标。 |
SM Utilization and Occupancy | 服务在该时间点的SM(Streaming Multiprocessor,流式多处理器)相关指标,SM是GPU的核心组成部分,负责执行和调度并行计算任务。
|
Graphics Engine Utilization | 服务在该时间点的GPU图形引擎利用率。 |
Pipe Active Ratio | 服务在该时间点的GPU运算管道的活跃率。
|
Tflops Usage | 服务在该时间点的GPU运算管道的Tflops(Tera floating-point operations per second,每秒万亿次浮点运算)运算量。
|
DRAM Active Ratio | 服务在该时间点的GPU设备显存接口发送或接收数据的活跃率。 |
SM Clock | 服务在该时间点的SM时钟频率。 |
GPU Temperature | 服务在该时间点的GPU温度相关指标。
|
Power Usage | 服务在该时间点的GPU功耗。 |
VLLM监控仪表盘
如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。
指标 | 说明 |
Requests Status | 服务在该时间点的所有请求数。
|
Token Throughput | 服务在该时间点所有请求的输入与生成的Token数。
|
Request Completion Status | 服务在该时间点所有请求的完成状态统计。
|
Time To First Token | 服务在该时间点所有请求的首Token延时(从接收到请求到生成第一个Token的时间)。
|
Time Per Output Token | 服务在该时间点所有请求的每Token延时(生成第一个Token之后的每个输出Token所需的平均时间)。
|
E2E Request Latency | 服务在该时间点所有请求的端到端延时(从接收到请求到返回所有Token的时间)。
|
Queue Time | 服务在该时间点所有请求的排队等待延时(请求排队等待被引擎处理的时间)。
|
Inference Time | 服务在该时间点所有请求的推理延时(请求被引擎处理的时间)。
|
Prefill Time | 服务在该时间点所有请求在 Prefill 阶段的延时(引擎处理请求输入Token的时间)。
|
Decode Time | 服务在该时间点所有请求在 Decode 阶段的延时(引擎生成输出Token的时间)。
|
Input Token Length | 服务在该时间点处理的输入token数。
|
Output Token Length | 服务在该时间点生成的输出token数。
|
Request Parameters(params_n & max_tokens) | 服务在该时间点所有请求的参数N和参数max_tokens。
|
GPU KV Cache Usage | 服务在该时间点的 GPU KV缓存平均使用率。 |
CPU KV Cache Usage | 服务在该时间点的 CPU KV缓存平均使用率。 |
Prefix Cache Hit Rate | 服务在该时间点所有请求的 Prefix缓存平均命中率。
|
HTTP Requests by Endpoint | 服务在该时间点按请求方法、路径和响应状态码分组的请求数。 |
HTTP Request Latency | 服务在该时间点不同请求路径的平均延时。 |
Speculative Decoding Throughput | 服务在该时间点的推测解码数。如果服务包含多个实例,则此处的指标为所有实例的平均值。
|
Speculative Decoding Efficiency | 服务在该时间点的推测解码性能。
|
Token Acceptance by Position | 服务在该时间点在不同生成位置的 Drafts Token 接受数。如果服务包含多个实例,则此处的指标为所有实例的平均值。 |
SGLang监控仪表盘
如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。
指标 | 说明 |
Requests Num | 服务在该时间点的所有请求数。
|
Token Throughput | 服务在该时间点所有请求的输入与生成的Token数。
|
Time To First Token | 服务在该时间点所有请求的首Token延时。首Token延时表示从接收到请求到生成第一个Token的时间。
|
Time Per Output Token | 服务在该时间点所有请求的每Token延时。每Token延时表示从生成第一个Token后,后续的每个输出Token所需的平均时间。
|
E2E Request Latency | 服务在该时间点所有请求的端到端延时。端到端延时表示从接收到请求到返回所有Token的时间。
|
Cache Hit Rate | 服务在该时间点所有请求的 Prefix缓存平均命中率。 |
Used Tokens Num | 服务在该时间点使用的KV缓存Token数。如果服务包含多个实例,则此处的指标为所有实例的平均值。 |
Token Usage | 服务在该时间点的KV缓存Token平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。 |
相关文档
开通服务监控报警后可在服务触发报警规则时收到报警通知。
通过云监控的控制台或API接口查看EAS云监控事件,对事件进行运维、审计或报警设置。
根据业务逻辑设置自定义监控指标进行弹性伸缩,详情请参见自定义监控及扩缩容指标。