EAS服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用和运行情况。本文为您介绍如何查看服务监控信息及监控指标说明。
前提条件
已部署模型服务,详情请参见服务部署:控制台。
查看服务监控信息
进入模型在线服务(EAS)页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间页面的左侧导航栏选择 ,进入模型在线服务(EAS)页面。
单击目标服务服务监控列下的,进入服务监控页签。
查看服务监控信息。
切换仪表盘
服务名:分钟级监控仪表盘,包含大部分常用的分钟级监控指标。默认显示该仪表盘。
服务名(fine):秒级监控仪表盘。
服务名(per):单实例分钟级监控仪表盘。
服务部署好后,默认创建以下3个仪表盘。
说明其中服务名在控制台显示为实际EAS服务的名称。
您可以单击服务名右侧的按钮,切换三个仪表盘,来查看各仪表盘具体的监控指标,关于监控指标的具体说明,请参见监控指标说明。
切换时间范围
单击监控信息区域右侧的,来切换仪表盘展示的时间范围。
重要目前分钟级监控指标最多保留1个月,秒级监控指标最多保留1个小时。
监控指标说明
分钟级监控仪表盘
您可以在该仪表盘监控以下指标信息:
QPS(query per second) 表示服务每秒的请求数。如果服务包含多个实例,则此处的指标为所有实例之和。不同返回码的请求数会分开计算。 | Response 表示服务在选定时间范围内接收的响应总数。不同返回码的响应数会分开计算。如果服务包含多个实例,则此处的指标为所有实例之和。 |
CPU 表示服务在该时间点的CPU平均使用量。单位为核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。 | CPU Utilization 表示服务在该时间点CPU平均使用率。计算方法为:CPU平均使用量 ÷ 最大可用核数。如果服务包含多个实例,则此处的指标为所有实例的平均值。 |
Memory Utilization 表示服务在该时间点的内存平均使用率。计算方法为:内存rss ÷ 内存total。如果服务包含多个实例,则此处的指标为所有实例的平均值。 | GPU 如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU平均使用率。如果服务包含多个实例,则此处的指标为所有实例的平均值。 |
GPU Memory 如果您部署的服务使用了GPU,该面板指标表示服务在该时间点的GPU显存的使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。 | Replicas 表示服务在该时间点的实例数。 |
CPU Total 表示服务在该时间点可用的CPU总核数。计算方法为:单实例可用CPU核数 × 服务实例数。 | Daily Invoke 表示服务每天的调用量,不同返回码的调用量会分开计算。 |
RT 表示请求的响应时间。 其中:
| Memory 表示服务在该时间点的内存平均使用量。如果服务包含多个实例,则此处的指标为所有实例的平均值。其中:
|
Traffic 表示服务接收和发出的流量大小,单位为比特每秒。如果服务包含多个实例,则此处的指标为所有实例的平均值。 其中:
| TCP Connections 表示TCP连接数。 |
秒级监控仪表盘
您可以在该仪表盘监控以下指标:
Instance QPS Fine 统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。 重要 数据精度精确到5秒级别,只保留最近1个小时的数据。 其中:实例使用ip:port来标识。 | Instance RT Fine 统计服务中每个实例接收到请求的平均响应时间。 重要 数据精度精确到5秒级别,只保留最近1个小时的数据。 其中:实例使用ip:port来标识。 |
单实例分钟级监控仪表盘
您可以在该仪表盘监控以下指标:
Instance QPS 统计服务中每个实例每秒接收的请求数。不同返回码的请求数会分开计算。其中:实例使用ip:port来标识。 | Instance RT 统计服务中每个实例的平均响应时间。其中:实例使用ip:port来标识。 |
Instance CPU 统计服务中每个实例的CPU使用量,单位为核数。其中:实例使用ip:port来标识。 | Instance Memory 统计服务中每个实例的内存使用量。其中:实例使用ip:port来标识。 |
Instance GPU 统计服务中每个实例的GPU使用率。 | Instance GPU Memory 统计服务中每个实例的GPU显存使用量。 |
Instance TCP Connections 表示单实例TCP连接数。 |
相关文档
通过监控报警功能对服务指标进行监控,当指标数据超过了配置的报警规则,则发送报警通知。详情请参见开通服务监控报警。
通过云监控控制台或API接口查看EAS服务实例事件,对事件进行运维、审计或报警设置,详情请参见查看服务实例云监控事件。
根据业务逻辑设置自定义的监控指标,并根据这些指标进行弹性伸缩,详情请参见自定义监控及扩缩容指标。