服务监控说明

EAS服务部署成功后,您可以在服务监控页面查看相关指标,了解服务的调用和运行情况。本文介绍如何查看服务监控信息并提供监控指标的详细说明。

查看服务监控信息

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 单击目标服务名称进入详情页面,切换到监控页签。

  3. 查看服务监控信息。

    切换仪表盘

    仪表盘分为服务和实例维度,切换方式如下:

    image

    • Service:服务维度,默认服务监控仪表盘名称格式为Service-<service_name>,其中<service_name>EAS服务的名称。

    • Instance:实例维度,分单实例和多实例。

      • Single Instance:单实例监控仪表盘,支持切换不同实例查看。

        image

      • Multiple Instance:多实例监控仪表盘,可自由选择多个实例对比查看。

        image

    切换时间范围

    单击监控区域右侧的image,切换仪表盘展示的时间范围。

    image

    重要

    目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。

    重要

    当服务标签配置了ServiceEngineType : vllmServiceEngineType : sglang时,会展示LLM相关的监控项。

监控指标说明

服务监控仪表盘(分钟级)

您可以在该仪表盘监控以下指标:

指标

说明

QPS

服务每秒的请求数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。其中,1d offset表示前一天同一时间的QPS数据,可用于分析环比数据。

Response

服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。

RT

请求的响应时间。

  • Avg:表示该时间点所有请求的平均响应时间。

  • TPXX:表示将该时间点所有请求时间从低到高排序后,前百分之XX请求的最大响应时间。

    例如:TP5表示前百分之五请求的最大响应时间;TP100表示所有请求的最大响应时间。

    如果服务包含多个实例,TP100表示所有实例的请求最大响应时间;其他TPXX为所有实例TPXX的均值,如TP5表示所有实例TP5的均值。

Daily Invoke

服务每天的调用量,不同返回码的调用量会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。

更多指标(CPU | Memory | GPU | Network | Resources)

指标

说明

CPU

CPU

服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

CPU Utilization

服务在该时间点CPU平均使用率。计算方法:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

CPU Total

服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。

Memory

Memory

服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。

  • RSS:表示常驻物理内存大小。

  • Cache:表示缓存大小。

  • Total:表示单个实例最大可用的物理内存大小。

Memory Utilization

服务在该时间点的内存平均使用率。计算方法为:内存RSS ÷ 内存Total。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU

GPU Utilization

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU Memory

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU Total

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU总量。如果服务包含多个实例,则此处的指标为所有实例的GPU总和。

GPU Memory Utilization

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU显存的使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。

Network

Traffic

服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。

其中:

  • In:表示服务接收的流量。

  • Out:表示服务发出的流量。

TCP Connections

TCP连接数。

Resources

Replicas

服务在该时间点不同状态的实例数,分为Total、Pending、Available。

Replicas By Resource

服务在该时间点不同资源类型的实例数,分为Total、Dedicated(专属资源)、Public(公共资源)。

实例监控仪表盘(分钟级)

您可以在该仪表盘监控以下指标:

指标

说明

QPS

该实例每秒接收的请求数。不同返回码的请求数会分开计算。

RT

该实例请求的响应时间。

Response

该实例在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。

更多指标(CPU | Memory | GPU | Network | Resources)

指标

说明

CPU

CPU

该实例的CPU使用量,单位为核数。

CPU Utilization

该实例在该时间点CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。

Memory

Memory

该实例的内存使用量。

  • RSS:表示常驻物理内存大小。

  • Cache:表示缓存大小。

  • Total:表示单个实例最大可用的物理内存大小。

Memory Utilization

该实例在该时间点的内存平均使用率。计算方法为:内存RSS ÷ 内存Total

GPU

GPU Utilization

该实例的GPU使用率。

GPU Memory

该实例的GPU显存使用量。

GPU Memory Utilization

该实例的GPU显存使用率。

Network

Traffic

该实例接收和发出的流量大小,单位为比特每秒。

其中:

  • In:表示该实例接收的流量。

  • Out:表示该实例发出的流量。

TCP Connections

TCP连接数。

多实例监控仪表盘

提供分钟级、秒级监控指标如下。

  • Minute-Level(分钟级)

    指标

    说明

    Instance QPS

    每个实例每秒的请求数。不同返回码的请求数会分开计算。

    Instance RT

    每个实例的平均响应时间。

    Instance CPU

    每个实例的CPU使用量,单位为核数。

    Instance Memory -- RSS

    每个实例常驻物理内存大小。

    Instance Memory -- Cache

    每个实例缓存大小。

    Instance GPU

    每个实例GPU使用率。

    Instance GPU Memory

    每个实例GPU显存的使用量。

    Instance TCP Connections

    每个实例TCP连接数。

  • Second-Level(秒级)

    重要

    数据精度精确到5秒级别,只保留最近1个小时的数据。

    指标

    说明

    Instance QPS Fine

    每个实例每秒接收的请求数。不同返回码的请求数会分开计算。

    Instance RT Fine

    每个实例接收到请求的平均响应时间。

GPU监控仪表盘

支持在服务和实例级别监控以下GPU指标。如果是服务级别,则指标是所有实例的平均值。

指标

说明

GPU Utilization

服务在该时间点的GPU使用率。

GPU Memory

服务在该时间点的GPU显存使用量与显存总量。

  • Used:表示该时间点的GPU显存使用量。

  • Total:表示该时间点的GPU显存总量。

Memory Copy Utilization

服务在该时间点的GPU显存复制利用率。

GPU Memory Utilization

服务在该时间点的GPU显存使用率,计算方法为:显存使用量 ÷ 显存总量。

PCIe

服务在该时间点的通过DCGM测量的PCIe(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)速率。

  • PCIe Transmit:表示该时间点的PCIe传输速率。

  • PCIe Receive:表示该时间点的PCIe接收速率。

Memory Bandwidth

服务在该时间点的GPU显存带宽指标。

SM Utilization and Occupancy

服务在该时间点的SM(Streaming Multiprocessor,流式多处理器)相关指标,SMGPU的核心组成部分,负责执行和调度并行计算任务。

  • SM Utilization:表示该时间点的SM利用率。

  • SM Occupancy:表示该时间点的SM上驻留的Warp线程数比例。

Graphics Engine Utilization

服务在该时间点的GPU图形引擎利用率。

Pipe Active Ratio

服务在该时间点的GPU运算管道的活跃率。

  • Pipe Fp32 Active Ratio:表示该时间点的FP32管道活跃率。

  • Pipe Fp16 Active Ratio:表示该时间点的Fp16管道活跃率。

  • Pipe Tensor Active Ratio:表示该时间点的Tensor管道活跃率。

Tflops Usage

服务在该时间点的GPU运算管道的Tflops(Tera floating-point operations per second,每秒万亿次浮点运算)运算量。

  • FP32 Tflops Used:表示该时间点的FP32管道Tflops运算量。

  • FP16 Tflops Used:表示该时间点的Fp16管道Tflops运算量。

  • Tensor Tflops Used:表示该时间点的Tensor管道Tflops运算量。

DRAM Active Ratio

服务在该时间点的GPU设备显存接口发送或接收数据的活跃率。

SM Clock

服务在该时间点的SM时钟频率。

GPU Temperature

服务在该时间点的GPU温度相关指标。

  • GPU Temperature:表示该时间点的GPU温度。

  • GPU Slowdown Temperature:表示该时间点的GPU降频温度阈值;当GPU温度达到该值时,GPU将自动降低其工作频率,以避免GPU设备过热。

  • GPU Shutdown Temperature:表示该时间点的GPU关机温度阈值;当GPU温度达到该值时,系统将强制关停GPU设备以防止GPU因过热而导致硬件损坏或引发更严重的系统故障。

Power Usage

服务在该时间点的GPU功耗。

以下是GPU健康状态与异常信息指标:

指标

说明

GPU Health Count

服务在该时间点的健康GPU卡数。

GPU Lost Card Num

服务在该时间点的GPU掉卡数。

ECC Error Count

服务在该时间点的ECC错误数。ECC(Error Correction Code,错误校验码)用于检测和纠正GPU显存数据传输或存储过程中的错误。

  • Volatile SBE ECC Error:表示服务在该时间点的单比特易失性ECC错误数。

  • Volatile DBE ECC Error:表示服务在该时间点的双比特易失性ECC错误数。

  • Aggregate SBE ECC Error:表示服务在该时间点的单比特持久性ECC错误数。

  • Aggregate DBE ECC Error:表示服务在该时间点的双比特持久性ECC错误数。

  • Uncorrectable ECC Error:表示服务在该时间点的无法纠正的ECC错误数。

NVSwitch Error Count

服务在该时间点的NVSwitch错误数。NVSwitch 提供高带宽和低延迟的通信通道,负责多GPU之间的高速通信。

  • NVSwitch Fatal Error:表示服务在该时间点的致命NVSwitch错误数。

  • NVSwitch Non-Fatal Error:表示服务在该时间点的非致命NVSwitch错误数。

Xid Error Count

服务在该时间点的Xid错误数。Xid错误是GPU驱动程序报告的错误代码,用于指示GPU在运行过程中遇到的问题,这些错误通常通过系统日志(如LinuxdmesgWindows的事件查看器)记录,并以Xid代码的形式表示。

  • Xid Error:表示服务在该时间点的非致命Xid错误数。

  • Fatal Xid Error:表示服务在该时间点的致命Xid错误数。

Kernel Error Count

服务在该时间点的非Xid错误数。非Xid错误(Non-Xid Errors)指的是除了Xid错误之外,由内核日志中报告的其他类型错误。

Driver Hang

服务在该时间点的GPU驱动挂起次数。

Remap Status

服务在该时间点GPU在尝试重映射显存行时的状态。

VLLM监控仪表盘

如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。

指标

说明

Requests Status

服务在该时间点的所有请求数。

  • Running:表示该时间点正在GPU上运行的请求数。

  • Waiting:表示该时间点等待处理的请求数。

  • Swapped:表示该时间点被交换至CPU上的请求数。

Token Throughput

服务在该时间点所有请求的输入与生成的Token数。

  • TPS_IN:表示该时间点输入的Token数。

  • TPS_OUT:表示该时间点输出的Token数。

Request Completion Status

服务在该时间点所有请求的完成状态统计。

  • preemptions: 请求被抢占。

  • stop: 请求因自然终止而成功完成(模型输出了停止标记,如<EOS>)。

  • length: 请求已达到最大输出token长度。

  • abort: 请求被强制终止。

Time To First Token

服务在该时间点所有请求的首Token延时(从接收到请求到生成第一个Token的时间)。

  • Avg:表示该时间点所有请求的首Token延迟的平均值。

  • TPXX:表示该时间点所有请求的首Token延迟的各个分位点值。

Time Per Output Token

服务在该时间点所有请求的每Token延时(生成第一个Token之后的每个输出Token所需的平均时间)。

  • Avg:表示该时间点所有请求的每Token延迟的平均值。

  • TPXX:表示该时间点所有请求的每Token延迟的各个分位点值。

E2E Request Latency

服务在该时间点所有请求的端到端延时(从接收到请求到返回所有Token的时间)。

  • Avg:表示该时间点所有请求的端到端延迟的平均值。

  • TPXX:表示该时间点所有请求的端到端延迟的各个分位点值。

Queue Time

服务在该时间点所有请求的排队等待延时(请求排队等待被引擎处理的时间)。

  • Avg:表示该时间点所有请求的排队等待延时的平均值。

  • TPXX:表示该时间点所有请求的排队等待延时的各个分位点值。

Inference Time

服务在该时间点所有请求的推理延时(请求被引擎处理的时间)。

  • Avg:表示该时间点所有请求的推理延时的平均值。

  • TPXX:表示该时间点所有请求的推理延时的各个分位点值。

Prefill Time

服务在该时间点所有请求在 Prefill 阶段的延时(引擎处理请求输入Token的时间)。

  • Avg:表示该时间点所有请求的Prefill延时的平均值。

  • TPXX:表示该时间点所有请求的Prefill延时的各个分位点值。

Decode Time

服务在该时间点所有请求在 Decode 阶段的延时(引擎生成输出Token的时间)。

  • Avg:表示该时间点所有请求的Decode延时的平均值。

  • TPXX:表示该时间点所有请求的Decode延时的各个分位点值。

Input Token Length

服务在该时间点处理的输入token数。

  • Avg:表示该时间点所有请求输入token长度的平均值。

  • TPXX:表示该时间点所有请求输入token长度的各个分位点值。

Output Token Length

服务在该时间点生成的输出token数。

  • Avg:表示该时间点所有请求输出token长度的平均值。

  • TPXX:表示该时间点所有请求输出token长度的各个分位点值。

Request Parameters(params_n & max_tokens)

服务在该时间点所有请求的参数N和参数max_tokens

  • Params_n:表示该时间点所有请求的参数N的平均值。

  • Params_max_tokens:表示该时间点所有请求的参数max_tokens的平均值。

GPU KV Cache Usage

服务在该时间点的 GPU KV缓存平均使用率。

CPU KV Cache Usage

服务在该时间点的 CPU KV缓存平均使用率。

Prefix Cache Hit Rate

服务在该时间点所有请求的 Prefix缓存平均命中率。

  • GPU:表示该时间点所有请求的GPU Prefix缓存平均命中率。

  • CPU:表示该时间点所有请求的CPU Prefix缓存平均命中率。

HTTP Requests by Endpoint

服务在该时间点按请求方法、路径和响应状态码分组的请求数。

HTTP Request Latency

服务在该时间点不同请求路径的平均延时。

Speculative Decoding Throughput

服务在该时间点的推测解码数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

  • Drafts:表示该时间点生成的 Drafts Token数。

  • Draft Tokens:表示该时间点处理的 Drafts Token数。

  • Accepted Tokens:表示该时间点被接收的 Drafts Token数。

  • Emitted Tokens:表示该时间点输出的 Drafts Token数。

Speculative Decoding Efficiency

服务在该时间点的推测解码性能。

  • Draft Acceptance Rate:表示该时间点 Drafts Token 被接收的平均比例。

  • Efficiency:表示该时间点推测解码的平均效率。

Token Acceptance by Position

服务在该时间点在不同生成位置的 Drafts Token 接受数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

SGLang监控仪表盘

如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。

指标

说明

Requests Num

服务在该时间点的所有请求数。

  • Running:表示该时间点正在GPU上运行的请求数。

  • Waiting:表示该时间点等待处理的请求数。

Token Throughput

服务在该时间点所有请求的输入与生成的Token数。

  • TPS_IN:表示该时间点输入的Token数。

  • TPS_OUT:表示该时间点输出的Token数。

Time To First Token

服务在该时间点所有请求的首Token延时。首Token延时表示从接收到请求到生成第一个Token的时间。

  • Avg:表示该时间点所有请求的首Token延迟的平均值。

  • TPXX:表示该时间点所有请求的首Token延迟的各个分位点值。

Time Per Output Token

服务在该时间点所有请求的每Token延时。每Token延时表示从生成第一个Token后,后续的每个输出Token所需的平均时间。

  • Avg:表示该时间点所有请求的每Token延迟的平均值。

  • TPXX:表示该时间点所有请求的每Token延迟的各个分位点值。

E2E Request Latency

服务在该时间点所有请求的端到端延时。端到端延时表示从接收到请求到返回所有Token的时间。

  • Avg:表示该时间点所有请求的端到端延迟的平均值。

  • TPXX:表示该时间点所有请求的端到端延迟的各个分位点值。

Cache Hit Rate

服务在该时间点所有请求的 Prefix缓存平均命中率。

Used Tokens Num

服务在该时间点使用的KV缓存Token数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

Token Usage

服务在该时间点的KV缓存Token平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。

相关文档