配置监控指标报警

通过云监控控制台为监控指标配置报警规则后,如果资源的监控指标达到报警条件,则云监控会自动发送报警通知提醒您关注异常监控数据,便于您及时采取措施处理异常。

前提条件

已创建报警联系人组。具体操作,请参见创建报警联系人组

创建报警规则

批量创建报警规则

通过将报警模板应用到已添加产品资源的应用分组,您可以批量为应用分组内的表格存储实例创建报警规则。

步骤一:创建应用分组并添加产品资源

应用分组提供跨云产品、跨地域的资源分组管理功能。您可以根据业务管理需求创建应用分组,将业务相关的资源添加到同一应用分组中,从应用分组维度管理报警规则。

  1. 登录云监控控制台

  2. 手动创建应用分组。

    1. 在左侧导航栏,单击应用分组

    2. 应用分组页签,单击创建应用分组

    3. 创建应用分组面板,选择创建实例方法手动创建,并设置应用分组名称和报警联系人组,其他保持默认即可。

      订阅事件通知默认为打开状态。当应用分组中的资源产生重要系统事件时,云监控会自动给报警联系人组中的报警联系人发送报警通知。

    4. 单击确定

  3. 为应用分组添加产品资源。

    1. 在目标应用分组的组内资源页面,单击管理产品和资源

    2. 添加/修改组资源面板,选择目标应用分组的关联云产品表格存储,并选择表格存储实例。

    3. 单击确定

      在目标应用分组的组内资源页面,您可以查看添加的云产品及其实例信息。

  4. 在目标应用分组的组内资源页面,单击返回图标,返回应用分组列表页面。

    应用分组页签,您可以查看创建的应用分组。

步骤二:创建报警模板并应用到分组

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警模板

  3. 报警模板页面,单击创建报警模板

  4. 创建报警模板面板,配置报警模板信息。

    1. 输入模板名称,并选择云产品为表格存储

    2. 单击添加规则,根据下表说明为报警模板设置阈值报警规则,然后单击确定

      表格存储只支持添加阈值报警规则。您可以根据需要添加多个规则。

      参数

      说明

      规则名称

      阈值报警规则的名称。

      指标类型

      阈值报警规则的指标类型。取值:

      • 单指标:一条报警规则仅作用于一个监控指标。

      • 多指标:一条报警规则作用于多个监控指标。

      指标名称

      报警的监控指标名称。关于如何获取云产品的监控项,请参见云产品监控项

      说明

      指标类型选择单指标时,显示该参数。

      阈值及报警级别

      报警级别和该级别对应的阈值。

      报警级别对应的报警通知方式如下:

      • 紧急(Critical):电话+短信+邮件+WebHook。

      • 警告(Warn):短信+邮件+WebHook。

      • 普通(Info):邮件+WebHook。

      您还需要选择发送报警通知需要监控指标达到报警阈值的次数。取值:连续1个周期、连续3个周期、连续5个周期、连续10个周期、连续15个周期、连续30个周期、连续60个周期、连续70个周期、连续90个周期、连续120个周期和连续180个周期。

      您可以设置多级报警,当阈值处于不同区间时,对应不同报警级别,云监控通过不同渠道给您发送报警通知。

      说明

      指标类型选择单指标时,显示该参数。

      报警级别

      报警级别和该级别对应的报警通知方式。取值:

      • 紧急(Critical):电话+短信+邮件+WebHook

      • 警告(Warn):短信+邮件+WebHook

      • 普通(Info):邮件+WebHook

      说明

      指标类型选择多指标时,显示该参数。

      指标类型

      多个监控指标的指标类型。取值:

      • 标准创建:直接选择多个监控指标及其报警条件。

      • 表达式创建:通过表达式设置多个监控指标及其报警条件。

      说明

      指标类型选择多指标时,显示该参数。

      多指标报警描述

      多个监控指标的报警规则。

      说明

      指标类型选择多指标,且为标准创建时,显示该参数。

      多指标关系

      多个监控指标之间的关系。取值:

      • 当所有指标都符合条件时候则报警

      • 有一个满足条件就报警

      说明

      指标类型选择多指标,且为标准创建时,显示该参数。

      多指标报警表达式

      多个监控指标的报警表达式。

      关于多指标报警规则表达式的设置方法,请参见报警规则表达式说明

      说明

      指标类型选择多指标,且为表达式创建时,显示该参数。

      发出报警需要满足达到阈值的次数

      发送报警通知需要监控指标达到报警阈值的次数。取值:连续1个周期、连续3个周期、连续5个周期、连续10个周期、连续15个周期、连续30个周期、连续60个周期、连续70个周期、连续90个周期、连续120个周期和连续180个周期。

      说明

      指标类型选择多指标时,显示该参数。

      无数据处理方法

      无监控数据时报警的处理方式。取值:

      • 不做任何处理

      • 发送无数据报警

      • 视为恢复

      标签

      报警模板的标签。报警标签会自动添加到报警内容中。

      报警回调

      公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

      当您需要测试报警回调地址的连通性时,可以执行以下操作。

      1. 单击回调地址正后方的测试

        WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

        说明

        您还可以设置Webhook回调模板类型语言,再次单击测试,获取对应的测试结果详情。

      2. 单击关闭

    3. 单击确定

  5. 应用报警模板到分组。

    1. 创建/修改报警模板完成对话框,单击确定

      说明

      如果您单击取消,则取消将当前报警模板应用到应用分组的操作。关于如何将报警模板应用到应用分组,请参见应用报警模板到应用分组

    2. 应用模板到分组对话框,设置应用分组、通道沉默周期、生效时间、报警回调、模板应用方式和模板应用策略,然后单击确定

    3. 应用模板到分组对话框,单击确定

      重要

      将模板应用到分组成功,需要稍等一段时间(异步)报警规则才能创建完成。

单个创建报警规则

当需要监控表格存储实例的使用情况时,您可以为单个表格存储实例创建报警规则。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,根据下表说明设置报警规则相关参数,然后单击确定

    参数

    说明

    产品

    云监控可管理的云产品名称。例如:云数据库RDS版。

    资源范围

    报警规则作用的资源范围。取值:

    • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。

    • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。

    • 实例:报警规则作用于指定云产品的指定资源上。

    规则描述

    报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则,在下滑菜单中选择合适的指标类型。

    2. 设置规则描述面板,先输入规则名称,再设置规则条件。

      • 单指标:先选择监控指标,再为其设置阈值和报警级别。

      • 组合指标:先选择报警级别,再配置多指标报警描述为两个或两个以上的监控指标设置报警条件。

        说明

        如果设置了多个指标报警规则,则目标资源必须在每个指标上均有数据,只有在满足条件后才能够正常触发报警。例如:在多指标报警规则中,如果包含公网的监控指标,而ECS主机资源并未配置公网IP,则将无法正常触发报警。

      • 表达式:先选择报警级别,再配置报警表达式。

      • 智能阈值:关于智能阈值的更多信息,请参见概览创建智能阈值报警规则

    3. 单击确定

    说明

    关于如何设置复杂的表达式报警条件,请参见报警规则表达式说明

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

    生效时间

    报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。

    说明

    当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。

    报警联系人组

    发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系人组

    标签

    报警规则的标签。包括标签名称和标签值。

    说明

    您最多可设置6组标签。

    报警回调

    公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调

    当您需要测试报警回调地址的连通性时,可以执行以下操作。

    1. 单击回调地址正后方的测试

      WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

      说明

      您还可以设置Webhook回调模板类型语言,再次单击测试,获取对应的测试结果详情。

    2. 单击关闭

    说明

    单击高级设置,可设置该参数。

    弹性伸缩

    如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

    说明

    单击高级设置,可设置该参数。

    日志服务

    如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域ProjectNameLogstore

    关于如何创建ProjectLogstore,请参见快速入门

    说明

    单击高级设置,可设置该参数。

    轻量消息队列(原 MNS)— topic

    如果您打开轻量消息队列(原 MNS)— topic开关,当报警发生时,会将报警信息发送至消息服务的主题。您需要设置消息服务的地域和主题。

    关于如何创建主题,请参见创建主题

    说明

    单击高级设置,可设置该参数。

    函数计算

    如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。

    关于如何创建服务和函数,请参见快速创建函数

    说明

    单击高级设置,可设置该参数。

    无数据处理方法

    无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为恢复

    说明

    单击高级设置,可设置该参数。

管理报警规则

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则,查看、修改、启用、禁用和删除对应的报警规则。