当企业的业务迁移部署在阿里云上,可使用阿里云的云解析DNS(Alibaba Cloud DNS)、负载均衡SLB(Server Load Balancer)、关系型数据库RDS(Relational Database Service)等产品,搭建同地域多可用区容灾系统架构,实现同城容灾。通过AHAS同城容灾演练验证同城容灾架构设计的合理性与正确性。

适用场景

同城灾备演练适用的灾备场景为:

  • 公共云形态:企业业务使用阿里云同地域的不同可用区搭建的同城容灾架构,保障容灾能力。
  • 应用级:企业希望对整体的应用做容灾备份演练,而非单独的数据库或存储。
  • 云上同城灾备:应对公共云上某地域可用区故障场景。例如:
    • 企业正使用的云产品实例不可用。
    • 可用区的某产品的集群级别的性能衰减或不可用。
    • 基础设置故障导致的整个可用区故障。

容灾演练示意图

容灾演练.png

同城容灾架构评估项

评估项 要求
SLB 多可用区SLB实例。
应用层 ECS多可用区部署,相关应用多可用区部署。
数据库 以RDS为例,实例为多可用区部署。
缓存 以Redis为例,实例为多可用区部署。
应用设计 应用设计的参考标准如下:
  • 无状态化。
  • 分布式集群设计、避免单点逻辑出现。
  • 幂等。
  • 异步化、松耦合、可中断、可重试。
  • 面向失败的架构设计。

断网演练对业务的影响介绍

演练之前需对自身的部署架构进行充分评估。符合同城容灾架构相关标准只是具有同城容灾能力的基础条件,实际是否可以同城容灾还需通过做容灾演练加以验证。

断网演练执行后,相关指标、业务流量应该会有明显的下跌;“容灾执行”或者“断网恢复”后,相关指标、业务流量应该会有明显的回升。

断网演练的流程

断网演练的一般流程如下:

  1. 开启演练:由演练平台执行演练开启。
  2. 灾备切换:核心系统或组件进行自动容灾切换。
  3. 人工评估:用户核对业务侧核心指标实际值。
  4. 演练恢复:由演练平台执行演练恢复。
  5. 灾备回切:核心系统或组件进行自动灾备回切。
  6. 预期评判:结合业务侧核心指标预期值和实际值的差距,判断演练“是否符合预期”。

常见的名词解释

名词 说明
可用区

可用区(Availability Zone,简称AZ)是指在同一地域内,电力和网络互相独立的物理区域。同一可用区内实例之间的网络延时更小。

在同一地域内可用区与可用区之间内网互通,可用区之间能做到故障隔离。是否将实例放在同一可用区内,主要取决于对容灾能力和网络延时的要求。

断网范围 实施断网演练的具体范围,涉及可用区内的一个或者多个云产品、应用。
RPO(Recovery Point Objective) 数据恢复点目标,以时间为单位。即在灾难发生时,系统和数据必须恢复的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。
RTO(Recovery Time Objective) 恢复时间目标,以时间为单位。即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。