本文向您介绍故障演练产品的功能优势,故障演练以下简称 AHAS Chaos。
灵活的流程编排
- AHAS Chaos 将故障演练的环节分为了准备、注入、检查以及恢复四个阶段,每个阶段除了系统初始化完成的必要节点之外,您也可以根据需要添加所需的流程节点。
- AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。
丰富的故障场景
丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:
- 常见的基础设施资源例如CPU、内存、磁盘等。
- 应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。
- 云原生领域的演练场景。
无论您是需要设置集群级别的大规模故障还是应用级别的请求级别细粒度故障,都可以在 AHAS Chaos 找到适合的场景,下图是 AHAS Chaos 提供的部分故障场景。

多样的专家经验
AHAS Chaos 将阿里内部多年的故障演练经验浓缩成了专家经验,专家经验具有以下优点:
- 专家经验都来自于阿里内部经常演练的场景,保证了演练场景的真实性以及实用性。
- 专家经验不但包括了可执行的演练流程,而且还描述了专家经验试图解决的问题以及针对的系统架构弱点。
- 专家经验极大的提升了演练创建的效率,您可以基于专家经验配置好的流程一键生成自己的演练。
安全的演练防护
在保护您的演练安全性上 AHAS Chaos 也做了非常多的防护措施。
- 在演练的任意一个环节,您都可以随时终止演练,每一个终止操作都会自动恢复注入的场景。
- 您可以一键终止所有正在运行当中的演练。
- 您可以配置演练自动的恢复时间,防止因演练时间过长而忘记恢复演练引发的不必要问题。
- 您可以通过全局恢复功能来配置自动恢复的策略,当某个指标符合某个要求时自动恢复演练。
深度集成的阿里云产品
AHAS Chaos 和阿里云的许多产品如 ARMS、SLS、EDAS、OTS 以及架构感知服务等做了深度集成,通过授权您可以实现以下功能。
- 对依赖的阿里云组件进行故障注入。
- 基于接入的阿里云监控系统数据如 ARMS 来丰富演练检查和恢复的手段。
- 通过 RAM 服务来授权不同账号的演练权限,提升演练的安全性。