EAS服务部署成功后,您可以在服务监控页面查看相关指标,了解服务的调用和运行情况。本文介绍如何查看服务监控信息并提供监控指标的详细说明。
查看服务监控信息
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS。
单击目标服务监控列下的
,进入监控页签。
查看服务监控信息。
切换仪表盘
仪表盘分为服务和实例维度,切换方式如下:
Service:服务维度,默认服务监控仪表盘名称格式为
Service-<service_name>
,其中<service_name>
是EAS服务的名称。Instance:实例维度,分单实例和多实例。
Single Instance:单实例监控仪表盘,支持切换不同实例查看。
Multiple Instance:多实例监控仪表盘,可自由选择多个实例对比查看。
切换时间范围
单击监控区域右侧的
,来切换仪表盘展示的时间范围。
重要目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。
监控指标说明
服务监控仪表盘(分钟级)
您可以在该仪表盘监控以下指标:
指标 | 说明 | |
QPS | 服务每秒的请求数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 | |
Response | 服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 | |
RT | 请求的响应时间。
| |
Daily Invoke | 服务每天的调用量,不同返回码的调用量会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 |
单实例监控仪表盘(分钟级)
您可以在该仪表盘监控以下指标:
指标 | 说明 |
QPS | 该实例每秒接收的请求数。不同返回码的请求数会分开计算。 |
RT | 该实例请求的响应时间。 |
Response | 该实例在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。 |
多实例监控仪表盘
提供分钟级、秒级监控指标如下。
Minute-Level(分钟级)
指标
说明
Instance QPS
每个实例每秒的请求数。不同返回码的请求数会分开计算。
Instance RT
每个实例的平均响应时间。
Instance CPU
每个实例的CPU使用量,单位为核数。
Instance Memory -- RSS
每个实例常驻物理内存大小。
Instance Memory -- Cache
每个实例缓存大小。
Instance GPU
每个实例GPU使用率。
Instance GPU Memory
每个实例GPU显存的使用量。
Instance TCP Connections
每个实例TCP连接数。
Second-Level(秒级)
重要数据精度精确到5秒级别,只保留最近1个小时的数据。
指标
说明
Instance QPS Fine
每个实例每秒接收的请求数。不同返回码的请求数会分开计算。
Instance RT Fine
每个实例接收到请求的平均响应时间。
GPU监控仪表盘
支持在服务和实例级别监控以下GPU指标。如果是服务级别,则指标是所有实例的平均值。
指标 | 说明 |
GPU Utilization | 服务在该时间点的GPU使用率。 |
GPU Memory | 服务在该时间点的GPU显存使用量与显存总量。
|
Memory Copy Utilization | 服务在该时间点的GPU显存复制利用率。 |
GPU Memory Utilization | 服务在该时间点的GPU显存使用率,计算方法为:显存使用量 ÷ 显存总量。 |
PCIe | 服务在该时间点的通过DCGM测量的PCIe(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)速率。
|
Memory Bandwidth | 服务在该时间点的GPU显存带宽指标。 |
SM Utilization and Occupancy | 服务在该时间点的SM(Streaming Multiprocessor,流式多处理器)相关指标,SM是GPU的核心组成部分,负责执行和调度并行计算任务。
|
Graphics Engine Utilization | 服务在该时间点的GPU图形引擎利用率。 |
Pipe Active Ratio | 服务在该时间点的GPU运算管道的活跃率。
|
Tflops Usage | 服务在该时间点的GPU运算管道的Tflops(Tera floating-point operations per second,每秒万亿次浮点运算)运算量。
|
DRAM Active Ratio | 服务在该时间点的GPU设备显存接口发送或接收数据的活跃率。 |
SM Clock | 服务在该时间点的SM时钟频率。 |
GPU Temperature | 服务在该时间点的GPU温度相关指标。
|
Power Usage | 服务在该时间点的GPU功耗。 |
VLLM监控仪表盘
如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。
指标 | 说明 |
Requests Num | 服务在该时间点的所有请求数。
|
Token Throughput | 服务在该时间点所有请求的输入与生成的Token数。
|
Time To First Token | 服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。
|
Time Per Output Token | 服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。
|
E2E Request Latency | 服务在该时间点所有请求的端到端延时。端到端延时表示从接收到请求到返回所有Token的时间。
|
Request Params N | 服务在该时间点所有请求的参数N的平均值。 |
GPU Cache Usage | 服务在该时间点的 GPU KV缓存平均使用率。 |
CPU Cache Usage | 服务在该时间点的 CPU KV缓存平均使用率。 |
Prefix Cache Hit Rate | 服务在该时间点所有请求的 Prefix缓存平均命中率。
|
BladeLLM监控仪表盘
如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。
指标 | 说明 |
Token Throughput | 服务在该时间点所有请求的输入与输出的Token数。
|
Prompt Length | 服务在该时间点所有请求的Prompt Token数的平均值。 |
Time To First Token | 服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。
|
Time Per Output Token | 服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。
|
Decode Latency | 服务在该时间点处理Decode的耗时。 |
Ragged Latency | 服务在该时间点处理的batch中同时包含prefill和decode请求时的耗时。 |
Prefill Batch Size | 服务在该时间点处理prefill batch的batch大小。 |
Decode Batch Size | 服务在该时间点处理decode batch的batch大小。 |
GPU Block Usage | 服务在该时间点的 GPU kv cache的平均block利用率。 |
Wait Queue Size | 服务在该时间点的待调度请求的排队长度。 |
Scheduler Step Latency | 服务在该时间点所有请求的调度器调度耗时。 |
Worker Bubble | 服务在该时间点GPU worker的平均空闲时间。 |
Updated Tokens | 服务在该时间点worker生成token的平均耗时。 |
Chunk Util | 服务在该时间点prefill的tokens占chunk_size的百分比。 |
相关文档
开通服务监控报警后可在服务触发报警规则时收到报警通知。
通过云监控控制台或API接口查看EAS云监控事件,对事件进行运维、审计或报警设置。
根据业务逻辑设置自定义监控指标进行弹性伸缩,详情请参见自定义监控及扩缩容指标。