通过服务监控报警功能,您可以监控服务运行情况。如果服务运行情况超过了配置的报警规则(条件),则发送报警通知。

背景信息

PAI-EAS支持对服务的以下项目进行监控报警。
监控项目 描述
CPU消耗 服务当前消耗的CPU核数。
GPU利用率 服务当前GPU使用量占部署GPU总量的比重。
GPU显存 服务当前GPU显存使用量。
内存消耗 服务当前内存消耗,单位MB。
每秒总调用次数 服务每秒总调用次数。
状态码2xx每秒响应 状态码为2xx码的每秒响应。
状态码2xx响应占比 状态码为2xx码的响应占比。
状态码4xx每秒响应 状态码为4xx码的每秒响应。
状态码4xx响应占比 状态码为4xx码的响应占比。
状态码5xx每秒响应 状态码为5xx码的每秒响应。
状态码5xx响应占比 状态码为5xx码的响应占比。
TP5响应时间 前5%请求最大响应时间。
TP80响应时间 前80%请求最大响应时间。
TP90响应时间 前90%请求最大响应时间。
TP95响应时间 前95%请求最大响应时间。
TP99响应时间 前99%请求最大响应时间。
TP100响应时间 前100%请求最大响应时间。
入流量 每秒进入服务的数据量,单位KB。
出流量 每秒流出服务的数据量,单位KB。

步骤一:配置报警联系人

  1. 创建报警联系人。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击报警服务 > 报警联系人
    3. 报警联系人页签,单击新建联系人
    4. 设置报警联系人面板,输入报警联系人姓名、手机号码、旺旺、邮箱和钉钉机器人。
    5. 选择报警通知信息语言,并滑动下方的滑块。
      系统支持如下三种方式:
      • 自动:根据当前账号注册时的语言自动适配报警通知信息的语言,即中国站为中文,国际站和日本站为英文。
      • 中文
      • English
    6. 单击确认
  2. 创建报警联系组。
    1. 报警联系人页面,单击报警联系组页签。
    2. 报警联系组页签,单击新建联系组
    3. 新建联系组面板,输入组名,并选择已有联系人,其他参数使用默认配置。
    4. 单击确认

步骤二:配置报警规则

  1. 在云监控控制台的左侧导航栏,单击云产品监控
  2. 云产品监控页面的搜索框中,搜索PAI-EAS在线预测服务,并单击PAI-EAS在线预测服务
  3. PAI-EAS在线预测服务页面,选择服务所在的地域,单击服务操作列下的监控图表
    监控图表
  4. 单击创建报警规则
  5. 创建报警规则面板,配置以下参数,并单击确定
    参数 描述
    产品 云监控管理的产品名称,选择PAI-EAS在线预测服务
    资源范围 报警规则的作用范围,分为全部资源和实例:
    • 全部资源:PAI-EAS的任何服务满足报警规则,都会发送报警通知。
    • 实例:仅选中的单个或多个服务实例满足报警规则时,才发送报警通知。
    规则描述 报警规则的主体,当监控数据满足指定条件时,触发报警规则。规则描述的设置方法如下:
    1. 单击添加规则
    2. 添加规则描述面板,设置规则名称、指标类型、监控指标、阈值、报警级别和报警方式等。
    3. 单击确定
    通道沉默周期 报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    报警联系人组 发送报警的联系人组,选择已绑定报警联系人的报警组。
    报警回调 可以访问的公网URL,云监控会将报警信息通过POST请求推送至该地址,仅支持HTTP协议。
    弹性伸缩 PAI-EAS在线预测服务报警规则没有适配弹性伸缩功能,您无需打开弹性伸缩开关。
    日志服务 如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要配置日志服务的地域ProjectNameLogstore

    创建ProjectName和Logstore的操作方法,请参见快速入门

    消息服务MNS-Topic 如果您打开消息服务MNS-Topic开关,当报警发生时,会将报警信息写入消息服务的主题。您需要设置消息服务的地域和主题。关于如何创建主题,请参见创建主题
    无数据报警处理方法 无监控数据时报警的处理方式。取值如下:
    • 不做任何处理(默认值)
    • 发送无数据报警
    • 视为正常