您可以通过设置报警规则来定义报警系统如何检查监控数据,并在监控数据满足报警规则时发送报警通知。如果您对重要监控指标设置报警规则,则可在第一时间得知指标异常,并迅速处理故障。

背景信息

  • 报警规则存在沉默期,当您的报警规则发生异常时,为避免报警风暴,24小时内只会发送一次报警通知。
  • 云监控默认将您的阿里云账号添加为报警联系人,并自动为其创建报警联系组。

创建报警联系人

同一个报警联系人,可以加入多个报警联系组。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警联系人
  3. 报警联系人页签,单击新建联系人
  4. 设置报警联系人页面,填写报警联系人的姓名、手机号码、邮箱、旺旺和钉钉机器人报警通知信息语言保持默认值自动
    说明 自动表示云监控根据当前阿里云账号注册时的语言,自动适配报警通知信息的语言。
  5. 信息验证无误后,单击确认
  6. (可选)报警联系人邮箱和手机号码激活。
    如果您设置了报警联系人的邮箱和手机号码,默认处于等待激活状态。报警联系人需要根据邮件和短消息中的激活链接,在24小时内进行激活,否则无法收到报警通知。激活后,您可以在报警联系人列表中看到目标报警联系人的手机号码和邮箱。报警联系人列表

创建报警联系组

报警联系组是一组报警联系人,可以包含一个或多个报警联系人。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警联系人
  3. 单击报警联系组页签。
  4. 报警联系组页签,单击新建联系组
  5. 新建联系组页面,填写报警联系组的组名,并选择报警联系人。
  6. 单击确认

批量添加报警联系人到报警联系组

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警联系人
  3. 报警联系人页签,选中目标报警联系人。
  4. 单击添加到报警联系组
  5. 确认信息对话框中,选择目标报警联系组。
  6. 单击确定

创建静态阈值报警规则

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 阈值报警页签,单击创建报警规则
  4. 创建报警规则页面,选择阈值类型静态阈值,并设置相关参数。
    参数 说明
    产品 云监控可管理的云服务名称。例如:云数据库RDS。
    资源范围 报警规则的作用范围。取值:
    • 全部资源:表示报警规则作用在当前阿里云账号的指定云服务的全部资源上。
    • 实例:表示报警规则只作用在当前阿里云账号的指定云服务的指定资源上。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体。当监控数据满足指定报警条件时,触发报警规则。
    通道沉默周期 报警发生后未恢复正常,间隔多久重复发送一次报警通知。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。
    报警级别
    • 电话+短信+邮件+钉钉机器人
    • 短信+邮件+钉钉机器人
    • 邮件+钉钉机器人
    弹性伸缩 如果您选中弹性伸缩,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectLogstore

    关于如何创建Project和Logstore,请参见快速入门

    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调
  5. 单击确认

创建动态阈值报警规则

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 阈值报警页签,单击创建报警规则
  4. 创建报警规则页面,选择阈值类型动态阈值,并设置相关参数。
    参数 说明
    产品 云监控可管理的云服务名称。
    资源范围 报警规则的作用范围。动态阈值报警规则只支持单个资源,不支持全部资源。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体。当监控数据满足指定报警条件时,触发报警规则。
    告警敏感度 报警的敏感度。取值:低(默认值)、中、高。

    报警敏感度越高,报警越频繁。

    默认使用的历史数据 云监控自动计算动态阈值采用历史数据的天数。单位:天。取值范围:3~14。默认值:14
    例如:默认使用的历史数据14,在创建动态阈值报警规则之前,您必须确保目标监控指标在14天内有监控数据;如果任意一天无监控数据,则无法计算出动态阈值,云监控不会给您发送报警通知。
    说明 默认使用的历史数据默认为14天,您可以单击告警配置进行修改。
    通道沉默周期 报警发生后未恢复正常,间隔多久重复发送一次报警通知。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。
    报警级别
    • 电话+短信+邮件+钉钉机器人
    • 短信+邮件+钉钉机器人
    • 邮件+钉钉机器人
    弹性伸缩 如果您选中弹性伸缩,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectLogstore

    关于如何创建Project和Logstore,请参见快速入门

    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调
  5. 单击确认