文档

服务监控说明

更新时间:

EAS服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用和运行情况。本文为您介绍如何查看服务监控信息及监控指标说明。

前提条件

已部署模型服务,详情请参见服务部署:控制台

查看服务监控信息

  1. 进入模型在线服务(EAS)页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

    3. 在工作空间页面的左侧导航栏选择模型部署 > 模型在线服务(EAS),进入模型在线服务(EAS)页面。

  2. 单击目标服务服务监控列下的image.png,进入服务监控页签。

  3. 查看服务监控信息。

    切换仪表盘

      服务部署好后,默认创建以下3个仪表盘。

      • 服务名:分钟级监控仪表盘,包含大部分常用的分钟级监控指标。默认显示该仪表盘。

      • 服务名(fine):秒级监控仪表盘。

      • 服务名(per):单实例分钟级监控仪表盘。

      说明

      其中服务名在控制台显示为实际EAS服务的名称。

      您可以单击服务名右侧的按钮按钮,切换三个仪表盘,来查看各仪表盘具体的监控指标,关于监控指标的具体说明,请参见监控指标说明22800e34cbc151919b64fb72b94db403.png

    切换时间范围

    单击监控信息区域右侧的按钮,来切换仪表盘展示的时间范围。image.png

    重要

    目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。

监控指标说明

分钟级监控仪表盘

您可以在该仪表盘监控以下指标信息:

QPS(query per second)

表示服务每秒的请求数。如果服务包含多个实例,则此处的指标为所有实例之和。不同返回码的请求数会分开计算。image

Response

表示服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。image

CPU

表示服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。CPU

CPU Utilization

表示服务在该时间点CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。CPU Utilization

Memory Utilization

表示服务在该时间点的内存平均使用率。计算方法为:内存rss ÷ 内存total。如果服务包含多个实例,则此处的指标为所有实例的平均值。Memory Utilization

GPU

如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。GPU

GPU Memory

如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。GPU Memory

Replicas

表示服务在该时间点的实例数。Replicas

CPU Total

表示服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。CPU Total

Daily Invoke

表示服务每天的调用量,不同返回码的调用量会分开计算。Daily Invoke

RT

表示请求的响应时间。image

其中:

  • avg:表示该时间点所有请求的平均响应时间。

  • tpXX:表示将该时间点所有请求时间从低到高排序后,前百分之XX请求的最大响应时间。

    例如:tp5表示前百分之五请求的最大响应时间;tp100表示所有请求的最大响应时间。

    如果服务包含多个实例,tp100表示所有实例的请求最大响应时间;tp5表示所有实例前百分之五请求的最大响应时间的平均值。

Memory

表示服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。Memory其中:

  • rss:表示常驻物理内存大小。

  • cache:表示缓存大小。

  • total:表示单个实例最大可用的物理内存大小。

Traffic

表示服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。image

其中:

  • in:表示服务接收的流量。

  • out:表示服务发出的流量。

TCP Connections

表示TCP连接数。

image.png

秒级监控仪表盘

您可以在该仪表盘监控以下指标:

Instance QPS Fine

统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。

重要

数据精度精确到5秒级别,只保留最近1个小时的数据。

Instance QPS Fine其中:实例使用ip:port来标识。

Instance RT Fine

统计服务中每个实例接收到请求的平均响应时间。

重要

数据精度精确到5秒级别,只保留最近1个小时的数据。

Instance RT Fine其中:实例使用ip:port来标识。

单实例分钟级监控仪表盘

您可以在该仪表盘监控以下指标:

Instance QPS

统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。Instance QPS其中:实例使用ip:port来标识。

Instance RT

统计服务中每个实例的平均响应时间。Instance RT其中:实例使用ip:port来标识。

Instance CPU

统计服务中每个实例的CPU使用量,单位为核数。Instance CPU其中:实例使用ip:port来标识。

Instance Memory

统计服务中每个实例的内存使用量。Instance Memory其中:实例使用ip:port来标识。

Instance GPU

统计服务中每个实例的GPU使用率。Instance GPU

Instance GPU Memory

统计服务中每个实例的GPU显存使用量。Instance GPU Memory

Instance TCP Connections

表示单实例TCP连接数。image.png

相关文档

  • 通过监控报警功能对服务指标进行监控,当指标数据超过了配置的报警规则,则发送报警通知。详情请参见开通服务监控报警

  • 通过云监控控制台或API接口查看EAS服务实例事件,对事件进行运维、审计或报警设置,详情请参见查看服务实例云监控事件

  • 根据业务逻辑设置自定义的监控指标,并根据这些指标进行弹性伸缩,详情请参见自定义监控及扩缩容指标