异常事件告警

更新时间:
复制为 MD 格式

本文以节点宕机检测为例介绍如何配置异常事件告警。通过创建告警策略并设置通知订阅,可以在系统发生CPU使用率异常时,通过钉钉、邮件或短信等方式及时收到通知,以便快速响应和处理。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSubManageFullAccessAliyunSysomFullAccess授予RAM用户

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

  • 已开通云监控服务

  • ECS实例为运行中,已安装云助手Agent

  • 安装SysOM组件,安装方式请参考组件管理

配置告警策略

  1. 访问操作系统控制台

  2. 在左侧导航栏,选择异常事件告警 > 策略管理

  3. 策略管理页面,单击新建策略

  4. 在页面中,配置如下信息:

    • 策略名称:填写策略的名称。

    • 集群名称:选择已纳管的集群。

    • 对节点和POD添加异常事件:支持多选。本文以节点宕机检测为例(通过运用异常检测算法)。

    • 按需添加接收告警的集群和节点、POD异常项。注意点击箭头将选择的项目添加到已选择列表。

    • 添加想要接收告警的异常项。页面提供节点POD两个页签,节点页签下按饱和度、错误、延时、负载四个类别分组,包含节点CPU使用率检测节点网络丢包检测节点OOM事件预测检测节点用户态OOM事件节点宕机检测节点load average检测等可选检测项。

  5. 勾选本次编辑是否生效(默认已勾选),单击保存

其他操作

  • 修改策略:在策略管理页面,定位到已创建的策略,单击操作列的编辑,对策略进行修改。

  • 删除策略:在策略管理页面,定位到已创建的策略,单击操作列的删除,对策略进行删除。

    在弹出的二次确认对话框中,单击确定完成删除。

配置告警联系人

配置钉钉机器人告警

目前操作系统控制台仅支持通过钉钉机器人推送通知,如需配置其他通知渠道,请参考配置短信/邮件告警
  1. 访问操作系统控制台

  2. 在左侧导航栏,选择异常事件告警 > 告警联系人管理 > 新建联系人

  3. 配置联系人的钉钉机器人信息。页面包含名称推送目标(默认为钉钉)、webhooksec密钥等字段,按需填写后单击保存

配置短信/邮件告警

  1. 登录云监控控制台

  2. 添加联系人。在左侧边栏单击报警联系人,单击创建联系人,按界面提示输入联系人的信息。面板中需填写姓名身份验证用的邮箱身份验证用的手机号等信息。

    新创建的联系人的邮箱必须激活后才能使用。
  3. 将联系人添加到联系人组。单击报警联系组,单击新建联系人组,按界面提示输入组名和添加联系人。

    可以编辑已有的联系人组,添加和删除组内的联系人。

  4. 创建订阅策略。关于创建订阅策略的

    1. 在左侧边栏单击事件订阅,单击创建订阅策略

    2. 按需填入名称订阅类型选择系统事件

    3. 订阅范围产品,输入sysom,选择阿里云操作系统智能运维平台报警订阅步骤还可按需配置事件类型事件等级事件名称事件级别规则名称事件内容事件资源等过滤条件。

    4. 根据需要选择事件类型和事件等级。之前在操作系统控制台上选择了节点CPU使用率检测 ,此处可以不单独勾选,默认选择全部事件即可。

    5. 通知配置的下拉框中,单击创建通知配置,按界面提示输入策略名称,在联系组的下拉框中选择上一步创建的联系人组。合并降噪步骤还可配置合并内容降噪触发方式(条件触发直接触发直接触发不抑制)。

    6. 其他配置按需配置,对于配置参数的详细解释见管理事件订阅(推荐),单击提交。

调试事件订阅

创建订阅策略后,通过调试事件订阅,测试事件是否可以成功推送。

  1. 单击调试事件订阅

  2. 产品处输入sysom,选择阿里云操作系统智能运维平台

  3. 选择上一步创建的订阅事件名称后,单击确定,即可收到测试推送信息。

  4. 按照上面的步骤配置告警策略和订阅策略后,当异常事件发生时会进行告警推送,效果如下。

    钉钉机器人

    image.png

    邮件

    image.png

    短信

    image.png