您可以在云监控产品中设置 E-MapReduce 的集群报警规则。云监控通过监控 E-MapReduce 集群的 CPU 空闲率、内存容量、磁盘容量等多个监控项,帮助用户监测集群的运行状态。如果集群在运行过程中触发了告警规则,可以及时地通知组中的联系人,以便及时处理问题。

注意 E-MapReduce 的集群报警规则数量属于基础报警规则数量,每个云账号可以免费创建 50 条规则,超过 50 条时,超过部分每条规则的费用是 0.003 元/小时。

设置报警规则

设置 E-MapReduce 的集群报警规则,请按照以下步骤操作:

  1. 进入云监控产品的管理控制台
  2. 在左侧的导航栏中单击云服务监控 > E-MapReduce,进入 E-MapReduce 监控列表页面。
  3. 单击报警规则页签。
  4. 在页面的右上角单击创建报警规则,进入报警规则配置页面。
  5. 关联资源部分,配置产品和资源范围。
    • 产品:从下拉菜单中选择 E-MapReduce。
    • 资源范围:报警规则的作用范围,包括全部资源和集群。选择全部资源时,报警的资源最多 1000 个。
      • 全部资源:表示该规则作用在账户下对应产品的所有实例上。比如设置了全部资源粒度的实例 CPU 使用率大于 80% 报警,则只要账户下有实例的 CPU 使用率大于 80%,就会命中这条规则。
      • 集群:表示该规则只作用在某个集群的实例上。比如设置了实例粒度的主机 CPU 使用率大于80%报警,则只要这个集群中有实例的 CPU 使用率大于 80% ,就会命中这条规则。
      说明 创建分组维度规则,已经迁移到分组的组内资源页面。
  6. 设置报警规则部分进行配置。
    • 规则名称:设置报警规则的名称。
    • 规则描述:报警规则的主体,定义在监控项数据满足何种条件时,触发报警规则。例如规则描述为 CPU 使用率 1 分钟平均值>=90%,则报警服务会1分钟检查一次 1 分钟内的数据是否满足平均值>=90%。关于 E-MapReduce 集群的监控项,请参见E-MapReduce 监控
    • 角色:默认情况下,任意角色都适用。

      单击添加报警规则,您可以设置多条报警规则(计费时按多条计算),只要其中一条规则被触发,系统就会给通知组发送通知。

    • 通道沉默时间:指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    • 连续几次超过阈值后报警:连续几次报警的探测结果符合您设置的规则,才会触发报警。例如规则设置为:系统态 CPU 使用率 1 分钟内平均值>80%,连续 3 次超过阈值后报警,则连续出现 3 次系统态 CPU 使用率1分钟内平均值大于80%的情况,才会触发报警。
    • 生效时间:报警规则每天的生效时间段。系统仅在生效时间内才会检查监控数据是否需要报警。
  7. 通知方式部分进行配置。
    • 通知对象:在搜索框中输入通知组名称的关键字,快速定位到您想关联的通知组,然后单击右箭头图标,通知组即被加入到右侧的通知列表。如果您还没有创建合适的通知组,单击快速创建联系人组进行创建。在右侧通知列表中选定通知组后,单击左箭头图标,即可从通知列表中删除该通知组。
    • 报警级别:报警信息包括三种严重级别,分别是Critical、Warning 和 Info。不同的报警级别对应着不同的通知方式。当需要配置为 Critical 级别时,请购买电话报警资源包。
    • 邮件备注(可选):自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    • 报警回调(可选):该功能可以让您将云监控发送的报警通知集成到已有运维体系或消息通知体系中。云监控通过 HTTP 协议的 POST 请求推送报警通知到您指定的公网 URL,您在接收到报警通知后,可以根据通知内容做进一步处理。详情请参见使用报警回调
  8. 单击确认,完成报警规则配置。

针对应用分组设置报警规则

应用分组表示该规则作用在某个应用分组下的所有实例上。比如设置了应用分组粒度的主机 CPU 使用率大于 80% 报警,则只要这个分组下有主机 CPU 使用率大于 80%,就会命中这条规则。当报警资源数超过 1000 个时可能会出现达到阈值不报警的问题,建议使用应用分组按业务划分资源再设置报警规则,具体操作步骤请参考创建应用分组将报警模板应用到分组