异常事件告警

本文以节点CPU使用率检测为例介绍如何配置异常事件告警。通过创建告警策略并设置通知订阅,可以在系统发生CPU使用率异常时,通过钉钉、邮件或短信等方式及时收到通知,以便快速响应和处理。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSubManageFullAccessAliyunSysomFullAccess授予RAM用户

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

  • 已开通云监控服务

  • ECS实例为运行中,已安装云助手Agent

配置告警策略

  1. 访问操作系统控制台

  2. 在左侧导航栏,选择异常事件告警 > 策略管理

  3. 策略管理页面,单击新建策略

  4. 编辑策略页面,配置如下信息:

    • 策略名称:填写策略的名称。

    • 集群名称:选择已纳管的集群。

    • 对节点和POD添加异常事件:支持多选。本文以节点CPU使用率检测为例(通过运用异常检测算法)。image

  5. 勾选本次编辑是否生效(默认已勾选),单击保存

其他操作

  • 修改策略:在策略管理页面,定位到已创建的策略,单击操作列的编辑,对策略进行修改。

  • 删除策略:在策略管理页面,定位到已创建的策略,单击操作列的删除,对策略进行删除。

订阅配置

  1. 登录云监控控制台

  2. 添加联系人。在左侧边栏单击报警联系人,单击创建联系人,按界面提示输入联系人的信息。image

    新创建的联系人的邮箱必须激活后才能使用。
  3. 将联系人添加到联系人组。单击报警联系组,单击新建联系人组,按界面提示输入组名和添加联系人。image

    可以编辑已有的联系人组,添加和删除组内的联系人。image

  4. 创建订阅策略。关于创建订阅策略的

    1. 在左侧边栏单击事件订阅,单击创建订阅策略

    2. 按需填入名称订阅类型选择系统事件

    3. 订阅范围产品,输入sysom,选择阿里云操作系统智能运维平台image.png

    4. 根据需要选择事件类型和事件等级。之前在操作系统控制台上选择了节点CPU使用率检测 ,此处可以不单独勾选,默认选择全部事件即可。

    5. 通知配置的下拉框中,单击创建通知配置,按界面提示输入策略名称,在联系组的下拉框中选择上一步创建的联系人组。imageimage

    6. 其他配置按需配置,对于配置参数的详细解释见管理事件订阅(推荐),单击提交。

调试事件订阅

创建订阅策略后,通过调试事件订阅,测试事件是否可以成功推送。

  1. 单击调试事件订阅

    image

  2. 产品处输入sysom,选择阿里云操作系统智能运维平台

    image

  3. 选择上一步创建的订阅事件名称后,单击确定,即可收到测试推送信息。

  4. 按照上面的步骤配置告警策略和订阅策略后,当异常事件发生时会进行告警推送,效果如下。

    钉群机器人

    image

    邮件

    image

    短信

    image