应用高可用服务AHAS(Application High Availability Service)的故障演练功能遵循了混沌工程实验原理并融合了阿里巴巴内部实践,提供了丰富的故障场景实现,能够帮您提升系统的容错性和可恢复性。本文介绍如何使用AHAS产品在容器上进行故障演练。

前提条件

警告 开启混沌工程前请充分评估影响范围,避免使用混沌工程对您的业务造成影响,建议在测试环境上验证后,再应用到生产环境上。

操作步骤

开启混沌工程操作流程如下图所示。

开启混沌工程

具体操作步骤如下。

  1. 在Kubernetes集群上部署您需要演练的应用。具体操作,请参见创建无状态工作负载Deployment
  2. 将您的应用接入故障演练功能。具体操作,请参见应用接入
  3. 创建故障演练场景。具体操作,请参见创建演练
  4. 执行故障演练,具体操作,请参见执行演练
    若故障演练的场景已被容器服务的告警规则覆盖且集群已开启报警功能,您将收到容器服务ACK发送的告警信息。更多报警配置信息,请参见容器服务报警管理
  5. 根据收到的告警信息,排查故障。关于ACK常见故障的排除方法,请参见故障排除