容器报警演练是针对Kubernetes集群定制的故障演练,由阿里云应用高可用服务AHAS产品完成容器的报警演练。本文介绍如何使用混沌工程进行容器报警演练。

前提条件

警告 开启混沌工程前请充分评估影响范围,避免使用混沌工程对您的业务造成影响,建议在测试环境上验证后,再应用到生产环境上。

演练目的

  • 验证集群报警配置是否正确及报警接收是否正常。
  • 熟悉应用高可用服务AHAS产品的基本操作流程。

步骤一:配置集群报警信息

选择状态为运行中的集群为演练对象,以ACK专有版集群为例说明。

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏中,选择运维管理 > 报警配置
    说明 首次登录需根据页面提示进行安装,若显示组件未升级,需单击开始升级完成升级后,进入报警配置页面。
  5. 报警配置页面,按照以下步骤完成联系人创建和联系人分组创建。
    1. 单击联系人管理页签,然后单击创建
    2. 创建联系人页面,输入姓名电话邮箱。然后单击确定
      联系人创建完成后,您将会收到验证激活短信或验证激活邮件,请按相应提示进行激活操作。
    3. 单击联系人分组管理页签,然后单击创建
    4. 创建分组页面,输入分组名称,然后选择分组联系人,最后单击确定
      选择分组联系人时,将可选联系人添加到已选联系人列表,也可移除已选联系人。创建分组
  6. 报警配置页面,单击报警规则管理页签。
    1. 集群容器副本异常报警规则集启动状态设置为开启。
      报警规则集合容器场景的监控报警能力,提供报警的统一配置管理。此处以集群容器副本异常报警规则集为例,更多报警配置,请参考容器服务报警管理
    2. 单击编辑通知对象,添加需要接收此报警规则集的联系人分组。

步骤二:执行故障演练

  1. 登录AHAS控制台
  2. 在顶部菜单栏,选择与演练集群相同的地域。
  3. 在控制台左侧导航栏中,选择故障演练 > 演练方案 > 容器演练
  4. 容器演练页面,在集群名称下拉框中选择演练集群,然后单击批量触发警报
    若未购买资源包,会有如下提醒,请单击购买资源包完成故障演练资源包购买。资源包购买提醒

步骤三:查看报警演练结果

批量触发警报后,您可根据以下步骤查看报警演练结果。

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏中,选择运维管理 > 报警配置
  5. 报警配置页面,单击报警历史页签。
    当批量触发警报成功,此时会看到一条报警信息["ahas mock event"]的报警记录。
  6. 根据您已配置的报警联系人信息,查看是否收到报警短信或报警邮件。
    若您能成功接收报警信息,说明此次演练验证成功。