服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用及运行情况。本文为您介绍如何查看服务监控信息及监控指标说明。

前提条件

已部署模型服务,详情请参见服务部署:控制台&Designer

查看服务监控信息

  1. 进入PAI EAS模型在线服务页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在工作空间页面的左侧导航栏选择模型部署 > 模型在线服务(EAS),进入EAS-模型在线服务页面。
  2. 单击目标服务服务监控列下的监控按钮,进入服务监控页签。
  3. 查看服务监控信息。
    • 切换仪表盘。
      服务部署好后,默认创建以下3个仪表盘。
      • 服务名:分钟级监控仪表盘,包含大部分常用的分钟级监控指标。默认显示该仪表盘。
      • 服务名(fine):秒级监控仪表盘。
      • 服务名(per):单实例分钟级监控仪表盘。
      说明 其中服务名在控制台显示为实际EAS服务的名称。
      您可以单击服务名右侧的按钮按钮,切换三个仪表盘,来查看各仪表盘具体的监控指标,关于监控指标的具体说明,详情请参见监控指标说明切换仪表盘
    • 切换时间范围。
      单击监控信息区域右侧的按钮,来切换仪表盘展示的时间范围。切换时间
      重要 目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。

监控指标说明

分钟级监控仪表盘

您可以在该仪表盘监控以下指标信息:
  • QPS(query per second)
    表示服务每秒的请求数。如果服务包含多个实例,则此处的指标为所有实例之和。不同返回码的请求数会分开计算。QPS
  • Response
    表示服务在选定时间范围内接收的请求总数。不同返回码的请求数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。Response
  • RT
    表示请求的响应时间。RT其中:
    • avg:表示该时间点所有请求的平均响应时间。
    • tpXX:表示将该时间点所有请求时间从低到高排序后,前百分之XX请求的最大响应时间。

      例如:tp5表示前百分之五请求的最大响应时间;tp100表示所有请求的最大响应时间。

      如果服务包含多个实例,tp100表示所有实例的请求最大响应时间;tp5表示所有实例前百分之五请求的最大响应时间的平均值。

  • Traffic
    表示服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。Traffic其中:
    • in:表示服务接收的流量。
    • out:表示服务发出的流量。
  • CPU
    表示服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。CPU
  • Memory
    表示服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。Memory其中:
    • rss:表示常驻物理内存大小。
    • cache:表示缓存大小。
    • total:表示单个实例最大可用的物理内存大小。
  • CPU Utilization
    表示服务在该时间点的CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。CPU Utilization
  • Memory Utilization
    表示服务在该时间点的内存平均使用率。计算方法为:内存rss ÷ 内存total。如果服务包含多个实例,则此处的指标为所有实例的平均值。Memory Utilization
  • GPU
    如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。GPU
  • GPU Memory
    如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。GPU Memory
  • Replicas
    表示服务在该时间点的实例数。Replicas
  • CPU Total
    表示服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。CPU Total
  • Daily Invoke
    表示服务每天的调用量,不同返回码的调用量会分开计算。Daily Invoke

秒级监控仪表盘

您可以在该仪表盘监控以下指标:
  • Instance QPS Fine
    统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。
    重要 数据精度精确到5秒级别,只保留最近1个小时的数据。
    Instance QPS Fine其中:实例使用ip:port来标识。
  • Instance RT Fine
    统计服务中每个实例接收到请求的平均响应时间。
    重要 数据精度精确到5秒级别,只保留最近1个小时的数据。
    Instance RT Fine其中:实例使用ip:port来标识。

单实例分钟级监控仪表盘

您可以在该仪表盘监控以下指标:
  • Instance QPS
    统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。Instance QPS其中:实例使用ip:port来标识。
  • Instance RT
    统计服务中每个实例的平均响应时间。Instance RT其中:实例使用ip:port来标识。
  • Instance CPU
    统计服务中每个实例的CPU使用量,单位为核数。Instance CPU其中:实例使用ip:port来标识。
  • Instance Memory
    统计服务中每个实例的内存使用量。Instance Memory其中:实例使用ip:port来标识。
  • Instance GPU
    统计服务中每个实例的GPU使用率。Instance GPU
  • Instance GPU Memory
    统计服务中每个实例的GPU显存使用量。Instance GPU Memory