服务监控说明

EAS服务部署成功后,您可以在服务监控页面查看相关指标,了解服务的调用和运行情况。本文介绍如何查看服务监控信息并提供监控指标的详细说明。

查看服务监控信息

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 单击目标服务监控列下的image.png,进入监控页签。

  3. 查看服务监控信息。

    切换仪表盘

    仪表盘分为服务和实例维度,切换方式如下:

    image

    • Service:服务维度,默认服务监控仪表盘名称格式为Service-<service_name>,其中<service_name>EAS服务的名称。

    • Instance:实例维度,分单实例和多实例。

      • Single Instance:单实例监控仪表盘,支持切换不同实例查看。

        image

      • Multiple Instance:多实例监控仪表盘,可自由选择多个实例对比查看。

        image

    切换时间范围

    单击监控区域右侧的image,来切换仪表盘展示的时间范围。

    image

    重要

    目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。

监控指标说明

服务监控仪表盘(分钟级)

您可以在该仪表盘监控以下指标:

指标

说明

QPS

服务每秒的请求数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。

Response

服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。

RT

请求的响应时间。

  • Avg:表示该时间点所有请求的平均响应时间。

  • TPXX:表示将该时间点所有请求时间从低到高排序后,前百分之XX请求的最大响应时间。

    例如:TP5表示前百分之五请求的最大响应时间;TP100表示所有请求的最大响应时间。

    如果服务包含多个实例,TP100表示所有实例的请求最大响应时间;其他TPXX为所有实例TPXX的均值,如TP5表示所有实例TP5的均值。

Daily Invoke

服务每天的调用量,不同返回码的调用量会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。

更多指标(CPU | Memory | GPU | Network | Resources)

指标

说明

CPU

CPU

服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

CPU Utilization

服务在该时间点CPU平均使用率。计算方法:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。

CPU Total

服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。

Memory

Memory

服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。

  • RSS:表示常驻物理内存大小。

  • Cache:表示缓存大小。

  • Total:表示单个实例最大可用的物理内存大小。

Memory Utilization

服务在该时间点的内存平均使用率。计算方法为:内存RSS ÷ 内存Total。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU

GPU Utilization

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU Memory

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。

GPU Total

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU总量。如果服务包含多个实例,则此处的指标为所有实例的GPU总和。

GPU Memory Utilization

如果部署的服务使用了GPU,该指标表示服务在该时间点的GPU显存的使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。

Network

Traffic

服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。

其中:

  • In:表示服务接收的流量。

  • Out:表示服务发出的流量。

TCP Connections

TCP连接数。

Resources

Replicas

服务在该时间点不同状态的实例数,分为Total、Pending、Available。

Replicas By Resource

服务在该时间点不同资源类型的实例数,分为Total、Dedicated(专属资源)、Public(公共资源)。

实例监控仪表盘(分钟级)

您可以在该仪表盘监控以下指标:

指标

说明

QPS

该实例每秒接收的请求数。不同返回码的请求数会分开计算。

RT

该实例请求的响应时间。

Response

该实例在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。

更多指标(CPU | Memory | GPU | Network | Resources)

指标

说明

CPU

CPU

该实例的CPU使用量,单位为核数。

CPU Utilization

该实例在该时间点CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。

Memory

Memory

该实例的内存使用量。

  • RSS:表示常驻物理内存大小。

  • Cache:表示缓存大小。

  • Total:表示单个实例最大可用的物理内存大小。

Memory Utilization

该实例在该时间点的内存平均使用率。计算方法为:内存RSS ÷ 内存Total

GPU

GPU Utilization

该实例的GPU使用率。

GPU Memory

该实例的GPU显存使用量。

GPU Memory Utilization

该实例的GPU显存使用率。

Network

Traffic

该实例接收和发出的流量大小,单位为比特每秒。

其中:

  • In:表示该实例接收的流量。

  • Out:表示该实例发出的流量。

TCP Connections

TCP连接数。

多实例监控仪表盘

提供分钟级、秒级监控指标如下。

  • Minute-Level(分钟级)

    指标

    说明

    Instance QPS

    每个实例每秒的请求数。不同返回码的请求数会分开计算。

    Instance RT

    每个实例的平均响应时间。

    Instance CPU

    每个实例的CPU使用量,单位为核数。

    Instance Memory -- RSS

    每个实例常驻物理内存大小。

    Instance Memory -- Cache

    每个实例缓存大小。

    Instance GPU

    每个实例GPU使用率。

    Instance GPU Memory

    每个实例GPU显存的使用量。

    Instance TCP Connections

    每个实例TCP连接数。

  • Second-Level(秒级)

    重要

    数据精度精确到5秒级别,只保留最近1个小时的数据。

    指标

    说明

    Instance QPS Fine

    每个实例每秒接收的请求数。不同返回码的请求数会分开计算。

    Instance RT Fine

    每个实例接收到请求的平均响应时间。

GPU监控仪表盘

支持在服务和实例级别监控以下GPU指标。如果是服务级别,则指标是所有实例的平均值。

指标

说明

GPU Utilization

服务在该时间点的GPU使用率。

GPU Memory

服务在该时间点的GPU显存使用量与显存总量。

  • Used:表示该时间点的GPU显存使用量。

  • Total:表示该时间点的GPU显存总量。

Memory Copy Utilization

服务在该时间点的GPU显存复制利用率。

GPU Memory Utilization

服务在该时间点的GPU显存使用率,计算方法为:显存使用量 ÷ 显存总量。

PCIe

服务在该时间点的通过DCGM测量的PCIe(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)速率。

  • PCIe Transmit:表示该时间点的PCIe传输速率。

  • PCIe Receive:表示该时间点的PCIe接收速率。

Memory Bandwidth

服务在该时间点的GPU显存带宽指标。

SM Utilization and Occupancy

服务在该时间点的SM(Streaming Multiprocessor,流式多处理器)相关指标,SMGPU的核心组成部分,负责执行和调度并行计算任务。

  • SM Utilization:表示该时间点的SM利用率。

  • SM Occupancy:表示该时间点的SM上驻留的Warp线程数比例。

Graphics Engine Utilization

服务在该时间点的GPU图形引擎利用率。

Pipe Active Ratio

服务在该时间点的GPU运算管道的活跃率。

  • Pipe Fp32 Active Ratio:表示该时间点的FP32管道活跃率。

  • Pipe Fp16 Active Ratio:表示该时间点的Fp16管道活跃率。

  • Pipe Tensor Active Ratio:表示该时间点的Tensor管道活跃率。

Tflops Usage

服务在该时间点的GPU运算管道的Tflops(Tera floating-point operations per second,每秒万亿次浮点运算)运算量。

  • FP32 Tflops Used:表示该时间点的FP32管道Tflops运算量。

  • FP16 Tflops Used:表示该时间点的Fp16管道Tflops运算量。

  • Tensor Tflops Used:表示该时间点的Tensor管道Tflops运算量。

DRAM Active Ratio

服务在该时间点的GPU设备显存接口发送或接收数据的活跃率。

SM Clock

服务在该时间点的SM时钟频率。

GPU Temperature

服务在该时间点的GPU温度相关指标。

  • GPU Temperature:表示该时间点的GPU温度。

  • GPU Slowdown Temperature:表示该时间点的GPU降频温度阈值;当GPU温度达到该值时,GPU将自动降低其工作频率,以避免GPU设备过热。

  • GPU Shutdown Temperature:表示该时间点的GPU关机温度阈值;当GPU温度达到该值时,系统将强制关停GPU设备以防止GPU因过热而导致硬件损坏或引发更严重的系统故障。

Power Usage

服务在该时间点的GPU功耗。

以下是GPU健康状态与异常信息指标:

指标

说明

GPU Health Count

服务在该时间点的健康GPU卡数。

GPU Lost Card Num

服务在该时间点的GPU掉卡数。

ECC Error Count

服务在该时间点的ECC错误数。ECC(Error Correction Code,错误校验码)用于检测和纠正GPU显存数据传输或存储过程中的错误。

  • Volatile SBE ECC Error:表示服务在该时间点的单比特易失性ECC错误数。

  • Volatile DBE ECC Error:表示服务在该时间点的双比特易失性ECC错误数。

  • Aggregate SBE ECC Error:表示服务在该时间点的单比特持久性ECC错误数。

  • Aggregate DBE ECC Error:表示服务在该时间点的双比特持久性ECC错误数。

  • Uncorrectable ECC Error:表示服务在该时间点的无法纠正的ECC错误数。

NVSwitch Error Count

服务在该时间点的NVSwitch错误数。NVSwitch 提供高带宽和低延迟的通信通道,负责多GPU之间的高速通信。

  • NVSwitch Fatal Error:表示服务在该时间点的致命NVSwitch错误数。

  • NVSwitch Non-Fatal Error:表示服务在该时间点的非致命NVSwitch错误数。

Xid Error Count

服务在该时间点的Xid错误数。Xid错误是GPU驱动程序报告的错误代码,用于指示GPU在运行过程中遇到的问题,这些错误通常通过系统日志(如LinuxdmesgWindows的事件查看器)记录,并以Xid代码的形式表示。

  • Xid Error:表示服务在该时间点的非致命Xid错误数。

  • Fatal Xid Error:表示服务在该时间点的致命Xid错误数。

Kernel Error Count

服务在该时间点的非Xid错误数。非Xid错误(Non-Xid Errors)指的是除了Xid错误之外,由内核日志中报告的其他类型错误。

Driver Hang

服务在该时间点的GPU驱动挂起次数。

Remap Status

服务在该时间点GPU在尝试重映射显存行时的状态。

VLLM监控仪表盘

如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。

指标

说明

Requests Num

服务在该时间点的所有请求数。

  • Running:表示该时间点正在GPU上运行的请求数。

  • Waiting:表示该时间点等待处理的请求数。

  • Swapped:表示该时间点被交换至CPU上的请求数。

Token Throughput

服务在该时间点所有请求的输入与生成的Token数。

  • TPS_IN:表示该时间点输入的Token数。

  • TPS_OUT:表示该时间点输出的Token数。

Time To First Token

服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。

  • Avg:表示该时间点所有请求的首token延迟的平均值。

  • TPXX:表示该时间点所有请求的首token延迟的各个分位点值。

Time Per Output Token

服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。

  • Avg:表示该时间点所有请求的每token延迟的平均值。

  • TPXX:表示该时间点所有请求的每token延迟的各个分位点值。

E2E Request Latency

服务在该时间点所有请求的端到端延时。端到端延时表示从接收到请求到返回所有Token的时间。

  • Avg:表示该时间点所有请求的端到端延迟的平均值。

  • TPXX:表示该时间点所有请求的端到端延迟的各个分位点值。

Request Params N

服务在该时间点所有请求的参数N的平均值。

GPU Cache Usage

服务在该时间点的 GPU KV缓存平均使用率。

CPU Cache Usage

服务在该时间点的 CPU KV缓存平均使用率。

Prefix Cache Hit Rate

服务在该时间点所有请求的 Prefix缓存平均命中率。

  • GPU:表示该时间点所有请求的GPU Prefix缓存平均命中率。

  • CPU:表示该时间点所有请求的CPU Prefix缓存平均命中率。

BladeLLM监控仪表盘

如果服务有多个实例,以下吞吐相关指标是实例的总和,延迟相关指标是实例的均值。

指标

说明

Token Throughput

服务在该时间点所有请求的输入与输出的Token数。

  • TPS_IN:表示该时间点输入的Token数。

  • TPS_OUT:表示该时间点输出的Token数。

Prompt Length

服务在该时间点所有请求的Prompt Token数的平均值。

Time To First Token

服务在该时间点所有请求的首token延时。首token延时表示从接收到请求到生成第一个token的时间。

  • Avg:表示该时间点所有请求的首token延迟的平均值。

  • Min:表示该时间点所有请求的首token延时的最小值。

  • TPXX:表示该时间点所有请求的首token延迟的各个分位点值。

Time Per Output Token

服务在该时间点所有请求的每token延时。每token延时表示从生成第一个token后续的每个输出token所需的平均时间。

  • Avg:表示该时间点所有请求的每token延迟的平均值。

  • Min:表示该时间点所有请求的每token延时的最小值。

  • TPXX:表示该时间点所有请求的每token延迟的各个分位点值。

Decode Latency

服务在该时间点处理Decode的耗时。

Ragged Latency

服务在该时间点处理的batch中同时包含prefilldecode请求时的耗时。

Prefill Batch Size

服务在该时间点处理prefill batchbatch大小。

Decode Batch Size

服务在该时间点处理decode batchbatch大小。

GPU Block Usage

服务在该时间点的 GPU kv cache的平均block利用率。

Wait Queue Size

服务在该时间点的待调度请求的排队长度。

Scheduler Step Latency

服务在该时间点所有请求的调度器调度耗时。

Worker Bubble

服务在该时间点GPU worker的平均空闲时间。

Updated Tokens

服务在该时间点worker生成token的平均耗时。

Chunk Util

服务在该时间点prefilltokenschunk_size的百分比。

相关文档