管理告警规则

MSE提供应用监控告警功能,可在满足告警条件时通过邮件、短信、钉钉等渠道实时告警,帮助您主动发现异常。本文介绍如何创建和管理告警规则。

前提条件

创建联系人分组

背景信息

报警控件本质是数据集的数据展示方式,所以在创建报警控件的同时,会创建一个数据集来存储报警控件的底层数据。

说明

新建报警大约在10分钟内生效,报警判断会存在1分钟~3分钟的延时。

创建告警规则

  1. 登录MSE注册配置中心管理控制台,并在顶部菜单栏选择地域。

  2. 在左侧导航栏,选择注册配置中心 > 告警管理 > 告警规则管理

  3. MSE告警列表页面,单击创建MSE告警规则

  4. 创建MSE告警规则页面,配置告警相关配置项,然后单击保存

    配置项

    描述

    告警名称

    填写告警规则名称。

    MSE集群

    选择集群。集群名称后的()里显示该集群的注册配置中心类型,目前仅支持Nacos和ZooKeeper。

    告警分组

    选择告警指标的分组。

    告警指标

    选择告警指标。不同告警分组所支持的告警指标也不同,请根据实际需求选择。

    告警条件

    设置触发告警的条件。例如,当服务数大于100时,发送告警。

    筛选条件

    默认无筛选,无需设置。

    数据预览

    当设置完告警条件后,在空白处单击鼠标左键,系统会自动弹出当前告警规则的预览数据。您可自定义事件周期进行筛选,当鼠标悬浮在图表上,可显示该时刻下的数据。

    说明

    当Metric为集群状态监控时,需要配置此项。

    持续时间

    设置持续时间。

    告警等级

    设置告警的等级。告警严重程度从默认、P4、P3、P2、P1逐级上升。

    告警内容

    设置触发该告警时,所显示的告警内容。您可以使用Go template语法在告警内容中自定义告警参数变量,例如:

    告警集群的ID:{{$label.service_cluster_id}}
    告警的集群节点:{{$label.kubernetes_pod_name}}
    设置的阈值:{{$labels.metrics_params_value}}
    触发告警的实际值:{{ printf "%.2f" $value }} 

    同时,告警内容也会根据告警指标自动调整。

    告警通知

    选择告警通知并进行相应的配置。可以选择极简模式普通模式

    快速指定通知策略

    选择告警通知普通模式时需要配置此项。

    当告警触发时,ARMS告警中心会根据配置的通知策略对产生的告警事件进行分派、处理并发送通知。

    您可以单击新建通知策略进行快速创建,也可以先在通知策略页面创建自定义通知策略,然后在这里选择已创建的通知策略。具体操作,请参见通知策略

    高级设置

    告警检查周期

    设置告警检查周期,默认值为1(单位:分钟)。

    数据完整后再检查

    选择是否在数据完整后再检查。

    标签

    单击创建标签,设置告警规则的标签,设置的标签可用作分派规则的选项。

    注释

    单击创建注释,设置message,设置{{变量名}}告警信息。设置完成后的格式为:message:{{$labels.pod_name}}重启告警信息,例如message:{{$labels.pod_name}}重启

后续操作

您在监控中创建的告警规则均会显示在MSE告警列表页面。

  • MSE告警列表页面,您可以在操作列中按需对目标报警规则采取以下操作。

    • 如需编辑告警规则,请单击编辑,并在编辑MSE告警规则页面中修改告警规则,然后单击完成

    • 如需启用停止告警规则,请单击启动停止,并在提示对话框中,单击确认

    • 如需删除报警规则,请单击删除,并在提示对话框中单击确认

    • 如需查看告警历史,请单击告警事件历史,在事件列表页面中查看到历史告警信息。

  • 可选:如果您想要批量管理多条告警规则,可选中多条告警规则,后按需单击批量操作 > 批量启动告警规则/批量停止告警规则/批量删除告警规则,并在对话框单击确认