全部产品
云市场

EAS服务监控报警

更新时间:2020-02-21 20:21:49

为了让用户更好地运维服务,提高对服务异常情况的响应速度以确保服务稳定,EAS提供了服务监控报警功能。

通过该功能,用户可对服务的运行情况按照预先设定的监控规则(条件)进行监控,当运行情况超出设定的规则(条件)时,即触发报警。

用户可设定将报警通过短信、邮件、电话(需开通资源包)、钉钉消息等方式触达指定接收用户。

本文将对服务监控报警功能的报警项及开通方式进行详细说明。

一、服务监控报警项

当前EAS提供对服务的以下项目进行监控报警:

监控项目 说明
CPU消耗 服务当前消耗的CPU核数
GPU利用率 服务当前GPU使用量占部署时的GPU总量的比重
内存消耗 服务当前内存消耗,单位Mbyte
每秒总调用次数 服务每秒总调用次数
状态码2xx每秒响应 状态码为2xx码的每秒响应
状态码2xx响应占比 状态码为2xx码的响应占比
状态码4xx每秒响应 状态码为4xx码的每秒响应
状态码4xx响应占比 状态码为4xx码的响应占比
状态码5xx每秒响应 状态码为5xx码的每秒响应
状态码5xx响应占比 状态码为5xx码的响应占比
入流量 每秒进入服务的数据量,单位kbps
出流量 每秒流出服务的数据量,单位kbps

二、开通方式

1、设定报警联系人

点此进入报警联系人管理页面

点击新建联系人点击“报警联系组”Tab,新建联系组,将报警需要联系的联系人加入该联系组。在下文报警规则设定中,需要使用“联系组的名称”,来指定报警推送的对象。

2、设定报警规则

点此进入报警规则管理页面

2.1点击创建报警规则

2.2 根据需求逐项填写:

  • 产品选择“PAI-EAS在线预测服务”
  • 资源范围可以选择“全部资源”或者“服务”,当选择全部资源时,则EAS里任何服务满足报警规则描述时,都会发送报警通知。选择“服务”后,可继续选择具体某一个或多个服务,当选中的服务满足报警规则描述时,才会发送报警通知。
  • 规则描述中的监控项(CPU消耗、GPU利用率、内存消耗等)的单位,与EAS服务监控页面(下图)的图表纵坐标保持一致。
  • 通知对象可选择前一步设定的报警联系组(即推送报警至该组内联系人)。