服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用及运行情况。本文为您介绍如何查看服务监控信息及监控指标说明。
前提条件
已部署模型服务,详情请参见服务部署:控制台&Designer。
查看服务监控信息
- 进入PAI EAS模型在线服务页面。
- 登录PAI控制台。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
- 在工作空间页面的左侧导航栏选择EAS-模型在线服务页面。 ,进入
- 单击目标服务服务监控列下的
,进入服务监控页签。
- 查看服务监控信息。
- 切换仪表盘。服务部署好后,默认创建以下3个仪表盘。
- 服务名:分钟级监控仪表盘,包含大部分常用的分钟级监控指标。默认显示该仪表盘。
- 服务名(fine):秒级监控仪表盘。
- 服务名(per):单实例分钟级监控仪表盘。
说明 其中服务名在控制台显示为实际EAS服务的名称。 - 切换时间范围。单击监控信息区域右侧的
,来切换仪表盘展示的时间范围。
重要 目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。
- 切换仪表盘。
监控指标说明
分钟级监控仪表盘
您可以在该仪表盘监控以下指标信息:
- QPS(query per second)表示服务每秒的请求数。如果服务包含多个实例,则此处的指标为所有实例之和。不同返回码的请求数会分开计算。
- Response表示服务在选定时间范围内接收的请求总数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。
- RT表示请求的响应时间。
其中:
- avg:表示该时间点所有请求的平均响应时间。
- tpXX:表示将该时间点所有请求时间从低到高排序后,前百分之XX请求的最大响应时间。
例如:tp5表示前百分之五请求的最大响应时间;tp100表示所有请求的最大响应时间。
如果服务包含多个实例,tp100表示所有实例的请求最大响应时间;tp5表示所有实例前百分之五请求的最大响应时间的平均值。
- Traffic表示服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。
其中:
- in:表示服务接收的流量。
- out:表示服务发出的流量。
- CPU表示服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。
- Memory表示服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。
其中:
- rss:表示常驻物理内存大小。
- cache:表示缓存大小。
- total:表示单个实例最大可用的物理内存大小。
- CPU Utilization表示服务在该时间点的CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。
- Memory Utilization表示服务在该时间点的内存平均使用率。计算方法为:内存rss ÷ 内存total。如果服务包含多个实例,则此处的指标为所有实例的平均值。
- GPU如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。
- GPU Memory如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。
- Replicas表示服务在该时间点的实例数。
- CPU Total表示服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。
- Daily Invoke表示服务每天的调用量,不同返回码的调用量会分开计算。
秒级监控仪表盘
您可以在该仪表盘监控以下指标:
- Instance QPS Fine统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。重要 数据精度精确到5秒级别,只保留最近1个小时的数据。
其中:实例使用ip:port来标识。
- Instance RT Fine统计服务中每个实例接收到请求的平均响应时间。重要 数据精度精确到5秒级别,只保留最近1个小时的数据。
其中:实例使用ip:port来标识。
单实例分钟级监控仪表盘
您可以在该仪表盘监控以下指标:
- Instance QPS统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。
其中:实例使用ip:port来标识。
- Instance RT统计服务中每个实例的平均响应时间。
其中:实例使用ip:port来标识。
- Instance CPU统计服务中每个实例的CPU使用量,单位为核数。
其中:实例使用ip:port来标识。
- Instance Memory统计服务中每个实例的内存使用量。
其中:实例使用ip:port来标识。
- Instance GPU统计服务中每个实例的GPU使用率。
- Instance GPU Memory统计服务中每个实例的GPU显存使用量。