文档

容灾演练断网方式说明

容灾演练提供三种断网方式:可用区断网、安全组断网和AHAS探针方式断网。这三种断网方式爆炸半径依次降低,对断网范围的控制越来越精细。

可用区断网

当整个机房的外部网络出现中断后,外部请求无法进入故障机房,机房内业务同样无法访问外部网络,但机房内网络互通,形成一个局部环境。可用区断网正是为了模拟此类真实故障而提供的机房级故障模拟能力。

可用区断网方式采用租户隔离技术,在用户指定VPC网络下对可用区交换机层面进行网络访问控制(网络ACL),实现子网流量的受控访问。

使用场景

  • 机房级业务整体不可用。

  • 机房级云服务不可用。

  • 机房级云基础设施不可用。

使用限制

  • 可用区断网基于VPC网络ACL的高级特性。若VPC不支持高级特性,则无法使用可用区断网方式。更多信息,请参见VPC高级功能

  • 如果您可用区内的ECS实例绑定了辅助弹性网卡,且辅助弹性网卡绑定了设置网卡可见模式的EIP,那么可用区断网不过滤该ECS实例的流量。

  • 可用区断网不会影响SLB或RDS等高可用实例的心跳检查,无法自动触发相关高可用实例的主备切换功能。

安全组断网

安全组断网是一种借助阿里云专有网络安全组技术实现的轻量级且精细化的断网方式,可以针对用户的ECS、Redis及RDS实例进行断网模拟。

针对ECS实例的断网模拟采用的是变更安全组策略的方式。如果ECS绑定了多块辅助网卡,每一块辅助网卡对应的安全组策略同样会进行故障注入,故障实验恢复时,系统会还原ECS绑定的原始安全组策略及辅助网卡对应的原始安全组。可用区断网在交换机级别进行模拟,而安全组断网在实例级别进行模拟。

针对Redis及RDS实例的断网模拟是通过主动触发主备切换的方式实现的。在实例进行主备切换时,业务可能会出现长连接闪断的情况,以此验证业务是否具备失效重连机制。

使用场景

  • 部分业务或大规模业务实例不可用。

  • Redis、RDS云服务高可用实例部分不可用。

使用限制

  • 安全组断网只针对新建立的网络连接进行阻断,并不会阻断已建立的连接,因此可能会存在断网不彻底的问题。

  • 部分地域存在极少量机器安全组断网不生效的问题。

AHAS探针方式断网

AHAS探针断网方式是应用高可用服务中故障演练平台自带的探针断网方式。用户需要在ECS中安装探针,然后通过探针进行本地网络受控访问。探针断网方式支持Host以及Kubernetes模式,相比于安全组断网,可实现更加彻底的断网效果。在故障模拟生效后,任何请求均可能会被拒绝(白名单机制中保留了访问部分云服务及SSH通道,防止意外无法恢复问题)。其次,相比于新建网络延迟故障,AHAS探针方式断网在参数自动填充、流程自动编排以及多网卡自适应等层面均实现了自动化处理,简化产品配置使用。

使用场景

  • 部分业务出现不可用,且需要模拟彻底断网。

  • Redis、RDS云服务高可用实例部分不可用。

  • 本页导读 (1)
文档反馈