创建报警规则

云原生多模数据库 Lindorm支持为实例的重要监控项创建报警规则。当监控项的值不在设置的阈值范围内时,系统会自动向报警联系组中联系人发出报警通知,从而快速定位问题。本文介绍如何通过云原生多模数据库 Lindorm控制台和云监控控制台创建报警规则。

Lindorm目前支持以下三种方式创建报警规则:

前提条件

注意事项

LindormLindorm新版实例支持创建报警规则,您可以通过控制台查看实例类型是否符合条件。

创建全局级别报警规则(ARMS控制台)

该方式创建的报警规则对您账号下的所有Lindorm实例生效

重要
  • 如果您是使用子账号初次通过Lindorm控制台查看监控信息,页面可能显示为空白,该现象表示您缺少相关查看权限,您需要先通过主账号开通可观测监控Prometheus版。具体操作步骤,请参见添加监控查看权限

  • ARMS服务不收取任何费用。

添加监控查看权限

  1. 为子账号授予AliyunARMSReadOnlyAccess权限。如何授权,请参见RAM用户授权

  2. 登录ARMS控制台,在左侧导航栏选择Prometheus 监控 > 实例列表

  3. 单击立即开通,开通可观测监控Prometheus版。

创建全局报警规则

  1. 在顶部菜单栏,选择地域为华东2(上海)

    重要

    华东2(上海)地域具备Lindorm全地域的监控数据,如果想要一次性为阿里云账号下所有Lindorm实例配置报警规则,请选择华东2(上海)地域。

  2. 登录ARMS控制台,在左侧导航栏选择Prometheus 监控 > Prometheus告警规则

  3. 创建Prometheus告警规则页面,填写以下参数:

    静态阈值

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择静态阈值

    Prometheus实例

    选择cloud-product-prometheus_cn-shanghailindorm

    告警分组

    选择告警分组。可选择某个引擎、系统、存储等。

    说明

    Lindorm暂不支持选择默认告警分组。

    告警指标

    通过下拉列表选择想要配置告警的指标。

    告警条件

    基于告警指标预置内容设置告警事件产生条件。

    筛选条件

    根据告警指标,设置当前配置的告警规则适用的范围,即所有符合筛选条件的资源满足此条告警规则时,均会产生告警事件。

    数据预览

    数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。

    默认展示一个实例下对应告警指标的实时值,您可以在该区域的筛选框中选择时间区间来查看不同时间区间和不同资源的值。

    说明
    • 告警阈值将会以一条红色直线的形式显示在时序曲线中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为其他颜色。

    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    告警等级

    自定义告警等级。告警严重程度从默认、P4、P3、P2、P1逐级上升。

    告警内容

    设置收到的告警信息。您可以使用Go Template语法在告警内容中自定义告警参数变量。

    告警通知

    分为极简模式和普通模式。

    • 极简模式:支持设置通知对象、通知时段和告警重复策略。

    • 普通模式:可快速指定已创建的通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见新建通知策略

    告警检查周期

    告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    数据完整后再检查

    设置数据采集完整后是否再进行告警检查。默认选择,一般无需修改。

    标签

    设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    注释

    设置告警的注释。

    自定义PromQL

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择自定义PromQL

    Prometheus实例

    选择cloud-product-prometheus_cn-shanghailindorm

    参考告警分组

    选择告警分组。可选择某个引擎、系统、存储等。

    说明

    Lindorm暂不支持选择默认告警分组。

    自定义PromQL语句

    使用PromQL语句设置告警则表达式。

    数据预览

    数据预览区域展示了满足PromQL告警表达式的实例资源的指标时序曲线。

    默认展示满足PromQL告警表达式实例的告警数据,您可以在该区域的筛选框中选择目标资源以及时间区间进行数据展示。

    说明
    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    告警等级

    自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。

    告警内容

    用户收到的告警信息。您可以使用Go Template语法在告警内容中自定义告警参数变量。

    告警通知

    分为极简模式和普通模式。

    • 极简模式:支持设置通知对象、通知时段和告警重复策略。

    • 普通模式:可快速指定已创建的通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见新建通知策略

    告警检查周期

    告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    数据完整后再检查

    设置数据采集完整后是否再进行告警检查。默认选择,一般无需修改。

    标签

    设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    注释

    设置告警的注释。

创建实例级别报警规则(Lindorm控制台)

该方式创建的报警规则仅对当前实例生效

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 在左侧导航栏单击报警配置可以查看实例的告警规则。报警规则

  3. 单击创建Lindorm告警规则

  4. 创建Lindorm告警规则页面配置以下参数。

    说明

    告警规则的检测类型分为静态阈值和自定义PromQL,不同的检测类型配置的参数不同。

    静态阈值

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择静态阈值

    Lindorm集群

    需要创建告警的Lindorm实例,即当前实例。

    告警分组

    选择告警分组,可选择某个引擎、系统、存储等。

    告警指标

    通过下拉列表选择想要配置告警的指标。

    告警条件

    基于告警指标预置内容设置告警事件产生条件。

    筛选条件

    根据告警指标,设置当前配置的告警规则适用的范围,即所有符合筛选条件的资源满足此条告警规则时,均会产生告警事件。

    数据预览

    数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。

    默认展示一个实例下对应告警指标的实时值,您可以在该区域的筛选框中选择时间区间来查看不同时间区间和不同资源的值。

    说明
    • 告警阈值将会以一条红色直线的形式显示在时序曲线中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为其他颜色。

    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    告警等级

    自定义告警等级。告警严重程度从默认、P4、P3、P2、P1逐级上升。

    告警内容

    设置收到的告警信息。您可以使用Go Template语法在告警内容中自定义告警参数变量。

    告警通知

    分为极简模式和普通模式。

    • 极简模式:支持设置通知对象、通知时段和告警重复策略。

    • 普通模式:可快速指定已创建的通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见新建通知策略

    告警检查周期

    告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    数据完整后再检查

    设置数据采集完整后是否再进行告警检查。默认选择,一般无需修改。

    标签

    设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    注释

    设置告警的注释。

    自定义PromQL

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择自定义PromQL

    Lindorm集群

    需要创建告警的Lindorm实例,即当前实例。

    参考告警分组

    Lindorm实例不支持设置参考指标。

    自定义PromQL语句

    使用PromQL语句设置告警则表达式。

    数据预览

    数据预览区域展示了满足PromQL告警表达式的实例资源的指标时序曲线。

    默认展示满足PromQL告警表达式实例的告警数据,您可以在该区域的筛选框中选择目标资源以及时间区间进行数据展示。

    说明
    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    告警等级

    自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。

    告警内容

    用户收到的告警信息。您可以使用Go Template语法在告警内容中自定义告警参数变量。

    告警通知

    分为极简模式和普通模式。

    • 极简模式:支持设置通知对象、通知时段和告警重复策略。

    • 普通模式:可快速指定已创建的通知策略,您也可以单击新建通知策略创建新的通知策略,具体操作,请参见新建通知策略

    告警检查周期

    告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    数据完整后再检查

    设置数据采集完整后是否再进行告警检查。默认选择,一般无需修改。

    标签

    设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    注释

    设置告警的注释。

创建全局或实例级别的报警规则(云监控控制台)

您可以通过云监控平台为阿里云账号下所有实例或某个实例创建报警规则。

  1. 登录云监控控制台

  2. 在左侧导航栏选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,设置以下参数。

    参数

    说明

    产品

    填写为云原生多模数据库Lindorm

    资源范围

    报警规则作用的资源范围。取值:

    • 全部资源:表示该规则作用于当前阿里云账号下云原生多模数据库 Lindorm的全部实例上。

    • 应用分组:表示该规则作用于云原生多模数据库 Lindorm的指定应用分组内的全部实例上。

    • 实例:表示该规则作用于某个指定Lindorm实例上。

    规则描述

    报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则

    2. 添加规则描述面板,设置规则名称、指标类型、监控指标、维度、阈值、报警级别和报警方式等。

    3. 单击确定

    关联资源

    选择云原生多模数据库 Lindorm的应用分组名称或者实例ID。

    说明

    当资源范围为应用分组或者实例时配置该参数。

    通道沉默周期

    监控指标出现异常时发送报警通知的间隔时长。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知。如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    说明

    单击高级设置,可设置该参数。

    生效时间

    报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

    说明

    单击高级设置,可设置该参数。

    标签

    报警规则的标签。您可以设置标签键和标签值。

    报警联系人组

    发送报警通知的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人,报警联系人组中可以包含一个或多个报警联系人。关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系组

    报警回调

    通过HTTP协议或HTTPS协议的POST请求推送报警通知到您指定的URL地址。关于如何设置报警回调,请参见使用阈值报警回调

    弹性伸缩

    开启弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域、弹性伸缩组和弹性伸缩规则。

    日志服务

    开启日志服务开关,当报警发生时,会将报警信息写入日志服务的日志库。您需要设置日志服务的地域、ProjectNameLogstore。关于如何创建ProjectLogstore,请参见快速入门:使用Logtail采集ECS文本日志并分析

    轻量消息队列(原 MNS)— topic

    开启轻量消息队列(原 MNS)— topic开关,当报警发生时,会将报警信息写入轻量消息队列的主题。您需要设置轻量消息队列的地域和主题。关于如何创建主题,请参见创建主题

    无数据处理方法

    无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为恢复

  5. 设置完成后,单击确定