通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。

背景信息

PAI-EAS支持对服务的以下项目进行监控报警。
监控项目 描述
CPU消耗 服务当前消耗的CPU核数。
GPU利用率 服务当前GPU使用量占部署GPU总量的比重。
内存消耗 服务当前内存消耗,单位MB。
每秒总调用次数 服务每秒总调用次数。
状态码2xx每秒响应 状态码为2xx码的每秒响应。
状态码2xx响应占比 状态码为2xx码的响应占比。
状态码4xx每秒响应 状态码为4xx码的每秒响应。
状态码4xx响应占比 状态码为4xx码的响应占比。
状态码5xx每秒响应 状态码为5xx码的每秒响应。
状态码5xx响应占比 状态码为5xx码的响应占比。
入流量 每秒进入服务的数据量,单位KB。
出流量 每秒流出服务的数据量,单位KB。

步骤一:配置报警联系人

  1. 创建报警联系人。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击报警服务 > 报警联系人
    3. 报警联系人页面,单击新建联系人
    4. 设置报警联系人页面,输入报警联系人姓名、手机号码、旺旺、邮箱和钉钉机器人。
      当您输入手机号码和邮箱时,需要进行验证,防止由于信息填写错误,而导致无法及时收到报警通知。
    5. 单击保存
  2. 创建报警联系组。
    1. 报警联系人页面,单击报警联系组页签。
    2. 报警联系组页面,单击新建联系组
    3. 新建联系组页面,输入组名,并选择已有联系人。
    4. 单击确定

步骤二:配置报警规则

  1. 在云监控控制台的左侧导航栏,单击报警服务 > 报警规则
  2. 报警规则列表页面,单击创建报警规则
  3. 创建报警规则页面,配置关联资源、报警规则及通知方式。
    参数 描述
    产品 云监控管理的产品名称,选择为PAI-EAS在线预测服务
    资源范围 报警规则的作用范围,分为服务和全部资源:
    • 全部资源:PAI-EAS的任何服务满足报警规则,都会发送报警通知。
    • 服务:仅选中的单个或多个服务满足警报规则时,才发送警报通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。
    说明 规则描述中的监控项(CPU消耗、GPU利用率及内存消耗等)单位需要与PAI-EAS服务监控页面的图表纵坐标单位一致。
    通道沉默周期 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组,选择为已绑定报警联系人的报警组。
    报警级别
    • 电话+短信+邮件+钉钉机器人
    • 短信+邮件+钉钉机器人
    • 邮件+钉钉机器人
    邮件备注 自定义报警邮件补充信息。配置邮件备注后,发送报警的邮件通知中会附带您的备注信息。
    报警回调 可以访问的公网URL,云监控会将报警信息通过POST请求推送至该地址,仅支持HTTP协议。
  4. 单击确认