创建告警规则_微服务引擎(MSE)-阿里云帮助中心

MSE提供应用监控告警功能，可在满足告警条件时通过邮件、短信、钉钉等渠道实时告警，帮助您主动发现异常。本文介绍如何创建和管理告警规则。

前提条件

创建联系人分组。

背景信息

报警控件本质是数据集的数据展示方式，所以在创建报警控件的同时，会创建一个数据集来存储报警控件的底层数据。

说明

新建报警大约在10分钟内生效，报警判断会存在1分钟~3分钟的延时。

创建告警规则

登录MSE注册配置中心管理控制台，并在顶部菜单栏选择地域。
在左侧导航栏，选择注册配置中心 > 告警管理 > 告警规则管理。
在MSE告警列表页面，单击创建MSE告警规则。

在创建MSE告警规则页面，配置告警相关配置项，然后单击完成。

配置项	描述
告警名称	填写告警规则名称。
MSE集群	选择集群。集群名称后的`()`里显示该集群的注册配置中心类型，目前仅支持Nacos和ZooKeeper。
告警分组	选择告警指标的分组为Nacos。
告警指标	选择告警指标。不同告警分组所支持的告警指标也不同，请根据实际需求选择。部分告警指标说明，请参见告警指标。
告警条件	设置触发告警的条件。例如，当服务数大于100时，发送告警。
筛选条件	默认无筛选，无需设置。
数据预览	当设置完告警条件后，在空白处单击鼠标左键，系统会自动弹出当前告警规则的预览数据。您可以自定义事件周期进行筛选，当鼠标悬浮在图表上时，可显示该时刻的数据。说明当Metric为集群状态监控时，需要配置此项。
持续时间	设置持续时间。
告警等级	设置告警的等级。告警严重程度从默认、P4、P3、P2、P1逐级上升。
告警内容	设置触发该告警时，所显示的告警内容。您可以使用Go template语法在告警内容中自定义告警参数变量，例如： `告警集群的ID：{{$label.service_cluster_id}} 告警的集群节点：{{$label.kubernetes_pod_name}} 设置的阈值：{{$labels.metrics_params_value}} 触发告警的实际值：{{ printf "%.2f" $value }}` 同时，告警内容也会根据告警指标自动调整。
告警通知	选择告警通知并进行相应的配置。可以选择极简模式或普通模式。
快速指定通知策略	选择告警通知为普通模式时需要配置此项。当告警触发时，ARMS告警中心会根据配置的通知策略对产生的告警事件进行分派、处理并发送通知。您可以单击新建通知策略进行快速创建，也可以先在通知策略页面创建自定义通知策略，然后在这里选择已创建的通知策略。具体操作，请参见通知策略。
高级设置
告警检查周期	设置告警检查周期，默认值为1（单位：分钟）。
数据完整后再检查	选择是否在数据完整后再检查。
标签（labels）	单击创建标签，设置告警规则的标签，设置的标签可用作分发规则的选项。
注释（annotations）	单击创建注释。设置键为message，值为{{变量名}}告警信息。设置完成后的格式为：`message:{{$labels.pod_name}}重启告警信息`，例如`message:{{$labels.pod_name}}重启`。

后续操作

您在监控中创建的告警规则均会显示在MSE告警列表页面。

在MSE告警列表页面，您可以在操作列中按需对目标报警规则采取以下操作。
- 如需编辑告警规则，请单击编辑，并在编辑MSE告警规则页面中修改告警规则，然后单击完成。
- 如需启用或停止告警规则，请单击启动或停止，并在提示对话框中，单击确认。
- 如需删除报警规则，请单击删除，并在提示对话框中单击确认。
- 如需查看告警历史，请单击告警事件历史，在事件列表页面中查看历史告警信息。
可选：如果您想要批量管理多条告警规则，可选中多条告警规则，后按需单击批量操作 > 批量启动告警规则/批量停止告警规则/批量删除告警规则，并在对话框单击确认。

告警指标

MSE Nacos已经总结出一系列Nacos使用过程中主要的监控指标，并为这些指标制定了推荐的告警阈值，其中对于Nacos运行期间最核心的一些监控指标， MSE提供了一键配置的功能，避免您逐个配置告警指标，方便您快速获得感知绝大多数Nacos异常情况的能力。一键配置Nacos核心告警的步骤及对应的指标内容，请参见配置默认告警。

其他主要的告警指标内容说明、建议值以及可能应用的场景，在下表列出：

告警指标	说明	建议值	应用场景
服务QPS/TPS	Nacos注册中心相关的每秒请求数。服务QPS为读请求（查询服务列表、查询服务提供者列表等）。服务TPS为写请求（注册服务、注销服务、心跳请求等）。	以QPS比TPS为5:1的比例，且TPS+QPS的总值大于实例能力评估中对应规格的每秒处理请求数（TPS）进行配置。例如Nacos实例为2c4g * 3节点，QPS大于1600时告警，TPS大于400时告警。具体的QPS和TPS的比例需要根据实际的使用情况进行调整，例如服务订阅者数量远大于服务提供者时，需要提高QPS的阈值，降低TPS的阈值。	检测是否有错用的场景，例如应用订阅过多服务、配置心跳时间过短等导致QPS/TPS过高。
服务读/写接口的平均请求耗时(毫秒)	Nacos注册中心相关读/写接口的平均响应时间（RT），单位为毫秒（ms）。	大于2500 ms时告警。	检测是否有较多的大数据量查询，例如单次查询过多的服务，或服务提供者的元数据过大。
服务提供者数	Nacos注册中心服务提供者总数。与默认告警“Nacos服务提供者使用率”过高相关联。	小于某个预期值时告警，或大于实例能力评估中对应规格的服务提供者数时告警。	检测是否有大规模服务掉线至影响业务可用性的数量。检测是否用量过大（与默认告警“Nacos服务提供者使用率”过高一致）。
配置QPS/TPS	Nacos配置中心相关的每秒请求数。配置QPS为读请求（查询配置内容、查询配置列表等）。配置TPS为写请求（发布配置、修改配置、删除配置等）。	以QPS比TPS为19:1的比例，且TPS+QPS的总值大于实例能力评估中对应规格的每秒处理请求数（TPS）进行配置。例如Nacos实例为2c4g * 3节点，QPS配置大于1900时告警，TPS大于100时告警。具体的QPS和TPS的比例需要根据实际的使用情况进行调整，例如配置监听者众多，但配置很少出现变更时，需要提高QPS的阈值，降低TPS的阈值。	检测是否有错用的场景，例如配置了命名空间ID为public，频繁查询配置内容，频繁发布配置等，导致QPS/TPS过高。
Nacos集群状态监测	有Nacos节点处于不可用状态。	无。	检测是否有Nacos节点处于不可用状态，便于预警容量雪崩的场景。说明该告警在Nacos进行主动运维操作，例如重启、升级、扩缩容时也会触发。