容器演练中的报警演练功能通过触发模拟事件,验证集群监控报警设置是否开启,并统计报警成功率、以及事件触发到监控报警的平均延迟,从而验证Kubernetes集群监控报警系统的有效性。AHAS的报警演练支持批量触发报警和定时触发报警,本文介绍这两种报警演练的操作方法。

前提条件

集群已开启报警配置,具体操作,请参见容器服务报警管理

批量触发报警

  1. 登录AHAS控制台,然后在页面左上角选择地域。
    说明 目前容器演练暂不支持公网地域。
  2. 在控制台左侧导航栏选择故障演练 > 架构高可用,然后在左侧导航栏选择架构高可用 > 容器演练
  3. 容器演练页面,单击报警演练
  4. 报警演练页面,从集群名称下拉列表中选择演练的集群。
    报警演练1.png
  5. 报警演练页面,选择待验证的报警事件(可多选),然后单击批量触发警报
    报警演练开始后AHAS会立即投递报警事件,验证通知用户的报警链路是否正常,计算报警延迟时间。您可以通过状态列查看报警是否成功触发。报警演练2.png
    注意 具体的报警联系人和历史信息,您可以在容器服务管理控制台中查看和设置。具体操作,请参见容器服务报警管理

定时触发报警

定时报警验证可以在不触发真实报警的情况下验证报警系统的有效性。

  1. 登录AHAS控制台,然后在页面左上角选择地域。
    说明 目前容器演练暂不支持公网地域。
  2. 在控制台左侧导航栏选择故障演练 > 架构高可用,然后在左侧导航栏选择架构高可用 > 容器演练
  3. 容器演练页面,单击报警演练
  4. 报警演练页面,选择待验证的报警事件(可多选),然后单击定时验证
  5. 规则配置对话框,配置定时报警规则,然后单击确认
    参数 说明
    启动定时报警
    • 选择是,开启定时报警。
    • 选择否,关闭定时报警。
    每日触发时间 在下拉列表中选择每日触发报警的具体时间,精确到分。
    启动报警通知
    • 选择是,自动触发的报警事件将会通过自定义的Webhook地址通知到用户。
    • 选择否,自动触发的报警事件将不会通知到用户,仅当报警验证失效时通过自定义的Webhook地址通知用户。
    钉钉机器人Webhook地址 输入自定义的钉钉机器人Webhook地址,用于通知报警事件。关于Webhook地址的具体操作,请参见如何获取自定义机器人Webhook地址?
    定时验证规则列表 显示已配置定时报警演练的规则。