本文以节点宕机检测为例介绍如何配置异常事件告警。通过创建告警策略并设置通知订阅,可以在系统发生CPU使用率异常时,通过钉钉、邮件或短信等方式及时收到通知,以便快速响应和处理。
前提条件
如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略
AliyunECSReadOnlyAccess、AliyunSubManageFullAccess和AliyunSysomFullAccess授予RAM用户。已开通控制台权限。
首次登录操作系统控制台时,单击开通服务以开通控制台服务。
-
已开通云监控服务。
-
ECS实例为运行中,已安装云助手Agent。
-
安装SysOM组件,安装方式请参考组件管理。
配置告警策略
访问操作系统控制台。
-
在左侧导航栏,选择。
-
在策略管理页面,单击新建策略。
-
在页面中,配置如下信息:
-
策略名称:填写策略的名称。
-
集群名称:选择已纳管的集群。
-
对节点和POD添加异常事件:支持多选。本文以节点宕机检测为例(通过运用异常检测算法)。
-
按需添加接收告警的集群和节点、POD异常项。注意点击箭头将选择的项目添加到已选择列表。
-
添加想要接收告警的异常项。页面提供节点和POD两个页签,节点页签下按饱和度、错误、延时、负载四个类别分组,包含节点CPU使用率检测、节点网络丢包检测、节点OOM事件预测检测、节点用户态OOM事件、节点宕机检测、节点load average检测等可选检测项。
-
-
勾选本次编辑是否生效(默认已勾选),单击保存。
其他操作
-
修改策略:在策略管理页面,定位到已创建的策略,单击操作列的编辑,对策略进行修改。
-
删除策略:在策略管理页面,定位到已创建的策略,单击操作列的删除,对策略进行删除。
在弹出的二次确认对话框中,单击确定完成删除。
配置告警联系人
配置钉钉机器人告警
目前操作系统控制台仅支持通过钉钉机器人推送通知,如需配置其他通知渠道,请参考配置短信/邮件告警。
访问操作系统控制台。
-
在左侧导航栏,选择。
-
配置联系人的钉钉机器人信息。页面包含名称、推送目标(默认为钉钉)、webhook及sec密钥等字段,按需填写后单击保存。
配置短信/邮件告警
-
登录云监控控制台。
-
添加联系人。在左侧边栏单击报警联系人,单击创建联系人,按界面提示输入联系人的信息。面板中需填写姓名、身份验证用的邮箱、身份验证用的手机号等信息。
新创建的联系人的邮箱必须激活后才能使用。
-
将联系人添加到联系人组。单击报警联系组,单击新建联系人组,按界面提示输入组名和添加联系人。
可以编辑已有的联系人组,添加和删除组内的联系人。
-
创建订阅策略。关于创建订阅策略的
-
在左侧边栏单击事件订阅,单击创建订阅策略。
-
按需填入名称,订阅类型选择系统事件。
-
在订阅范围的产品,输入
sysom,选择阿里云操作系统智能运维平台。报警订阅步骤还可按需配置事件类型、事件等级、事件名称、事件级别、规则名称、事件内容、事件资源等过滤条件。 -
根据需要选择事件类型和事件等级。之前在操作系统控制台上选择了节点CPU使用率检测 ,此处可以不单独勾选,默认选择全部事件即可。
-
在通知配置的下拉框中,单击创建通知配置,按界面提示输入策略名称,在联系组的下拉框中选择上一步创建的联系人组。合并降噪步骤还可配置合并内容与降噪触发方式(条件触发、直接触发或直接触发不抑制)。
-
其他配置按需配置,对于配置参数的详细解释见管理事件订阅(推荐),单击提交。
-
调试事件订阅
创建订阅策略后,通过调试事件订阅,测试事件是否可以成功推送。
-
单击调试事件订阅。
-
产品处输入
sysom,选择阿里云操作系统智能运维平台。 -
选择上一步创建的订阅事件名称后,单击确定,即可收到测试推送信息。
-
按照上面的步骤配置告警策略和订阅策略后,当异常事件发生时会进行告警推送,效果如下。
钉钉机器人

邮件

短信
