EAS监控指标_人工智能平台 PAI(PAI)-阿里云帮助中心

EAS服务部署成功后，您可以在服务监控页面查看该服务的相关指标，来了解服务的调用和运行情况。本文为您介绍如何查看服务监控信息及监控指标说明。

前提条件

已部署模型服务，详情请参见服务部署：控制台。

查看服务监控信息

进入模型在线服务（EAS）页面。
1. 登录PAI控制台。
2. 在左侧导航栏单击工作空间列表，在工作空间列表页面中单击待操作的工作空间名称，进入对应的工作空间。
3. 在工作空间页面的左侧导航栏选择模型部署 > 模型在线服务（EAS），进入模型在线服务（EAS）页面。
单击目标服务服务监控列下的，进入服务监控页签。
查看服务监控信息。
切换仪表盘
切换时间范围
单击监控信息区域右侧的，来切换仪表盘展示的时间范围。
重要
目前分钟级监控指标最多保留1个月，秒级监控指标最多保留1个小时。

监控指标说明

分钟级监控仪表盘

您可以在该仪表盘监控以下指标信息：

QPS（query per second）表示服务每秒的请求数。如果服务包含多个实例，则此处的指标为所有实例之和。不同返回码的请求数会分开计算。	Response 表示服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例，则此处的指标为所有实例之和。
CPU 表示服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例，则此处的指标为所有实例的平均值。	CPU Utilization 表示服务在该时间点CPU平均使用率。计算方法为：CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例，则此处的指标为所有实例的平均值。
Memory Utilization 表示服务在该时间点的内存平均使用率。计算方法为：内存rss ÷ 内存total。如果服务包含多个实例，则此处的指标为所有实例的平均值。	GPU 如果您部署的服务使用了GPU，该面板指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例，则此处的指标为所有实例的平均值。
GPU Memory 如果您部署的服务使用了GPU，该面板指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例，则此处的指标为所有实例的平均值。	Replicas 表示服务在该时间点的实例数。
CPU Total 表示服务在该时间点可用的CPU总核数。计算方法为：单实例可用CPU核数 × 服务实例数。	Daily Invoke 表示服务每天的调用量，不同返回码的调用量会分开计算。
RT 表示请求的响应时间。其中： avg：表示该时间点所有请求的平均响应时间。 tpXX：表示将该时间点所有请求时间从低到高排序后，前百分之XX请求的最大响应时间。例如：tp5表示前百分之五请求的最大响应时间；tp100表示所有请求的最大响应时间。如果服务包含多个实例，tp100表示所有实例的请求最大响应时间；tp5表示所有实例前百分之五请求的最大响应时间的平均值。	Memory 表示服务在该时间点的内存平均使用量。如果服务包含多个实例，则此处的指标为所有实例的平均值。其中： rss：表示常驻物理内存大小。 cache：表示缓存大小。 total：表示单个实例最大可用的物理内存大小。
Traffic 表示服务接收和发出的流量大小，单位为比特每秒。如果服务包含多个实例，则此处的指标为所有实例的平均值。其中： in：表示服务接收的流量。 out：表示服务发出的流量。	TCP Connections 表示TCP连接数。

秒级监控仪表盘

您可以在该仪表盘监控以下指标：

Instance QPS Fine

统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。

重要

数据精度精确到5秒级别，只保留最近1个小时的数据。

Instance QPS Fine 其中：实例使用ip:port来标识。

Instance RT Fine

统计服务中每个实例接收到请求的平均响应时间。

重要

数据精度精确到5秒级别，只保留最近1个小时的数据。

Instance RT Fine 其中：实例使用ip:port来标识。

单实例分钟级监控仪表盘