ECS应用系统同城灾备方案

更新时间:

方案概述

为了保障企业业务稳定、IT系统功能正常以及数据安全,灾备解决方案变得越来越重要,并且正在迅速发展。在阿里云的ECS云服务器上,您可以使用ECS的快照或镜像、云备份服务或高可用部署架构来实现数据备份与应用恢复,以提高业务的可用性与连续性。

该方案详细介绍了如何通过云备份(HBR)实现ECS跨可用区的冷备容灾,可以在不增加额外闲置成本的情况下恢复因可用区故障导致的生产宕机。当生产站点发生故障时,业务系统切换到容灾站点,快速构建 ECS资源恢复生产环境。能够有效避免地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。

方案优势

成本效益

相对于实时备份或热备份,冷备方案通常更经济实惠。因为在冷备方案中,备份实例不会一直处于运行状态,只有在生产站点实例发生故障时才启动,可以节省运行成本。

无代理数据复制

该容灾方案基于云盘异步复制功能实现ECS容灾,是一种无代理的数据复制技术,具有零侵入性,OS普适性,以及容灾站点计算资源零消耗等优势。

一键容灾演练

云备份支持一键启动容灾演练,演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在容灾站点正常拉起。

  • 确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。

多机一致性

该容灾方案提供多机一致性,可满足企业应用的严格要求。

客户场景

冷备方案实现ECS同城容灾

场景描述

冷备份容灾是一种低成本、高可靠性的跨可用区(Availability Zone,AZ)容灾方案,适用于需要数据安全性但对业务连续性要求不高的场景。其核心是将应用和数据在主可用区(Primary AZ)正常运行的同时,定期备份到备份可用区(Backup AZ)。当主可用区发生故障时,可以通过冷备份的方式恢复到备份可用区。

适用客户

  1. 业务对系统停机时间容忍度较高,对RTO、RPO核心指标要求不高(分钟级)

  2. 成本敏感,预算有限,但需要保障数据安全和基本业务的恢复能力。

  3. 业务场景限制无法采用多活方案,需要通过冷备进行灾难恢复

方案架构

本方案通过云备份(HBR)实现ECS同城容灾。该方案底层基于块存储(EBS)的异步复制技术实现云盘的跨可用区容灾能力,应对不同的业务需求。当生产主站点发生故障时,可以将业务系统切换到灾备站点,有效避免地域性灾害导致的系统故障,保障业务的可用性和连续性。

管理员登录云备份控制台,创建容灾站点对,明确生产站点和容灾站点的信息,包含地域、可用区、VPC等(图中1)。管理员在创建好的容灾站点对中创建保护组,一个保护组可包含多个被保护的ECS实例,保护组中的所有ECS将会一起做故障切换(图中2)。保护组初始化完成后,就可以启动保护组复制。将生产站点所有数据复制到容灾站点,此时会在容灾站点自动创建按量付费的ECS实例(图中3)。生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点时,管理员进行故障切换操作,启动容灾站点的ECS实例,数据在RPO范围内有部分丢失(图中4)。ECS示例启动后,由云助手自动执行开机运维脚本,可自定义执行一系列初始化操作(图中5)。故障切换完成后,待生产站点恢复正常,开启反向复制,将容灾站点ECS的最新数据复制到生产站点,实现生产站点的容灾恢复,后续可选择恢复到生产站点继续运行业务(图中6)。

产品费用及名词

产品费用

产品名称

产品说明

产品费用

云备份

云备份(Cloud Backup)作为阿里云统一灾备平台,是一种简单易用、敏捷高效、安全可靠的公共云数据管理服务,可以为阿里云ECS整机、ECS数据库、文件系统、NAS、OSS以及自建机房内的文件、数据库、虚拟机、大规模NAS等提供备份、容灾保护以及策略化归档管理。

收费,详情参见产品计费

云服务器ECS

云服务器ECS(Elastic Compute Service)是一种简单高效、处理能力可弹性伸缩的计算服务。帮助您构建更稳定、安全的应用,提升运维效率,降低IT成本,使您更专注于核心业务创新。

收费,详情参见产品计费

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,提升应用系统的可用性。产品包括应用型负载均衡ALB传统型负载均衡CLB

收费,详情参见ALB计费CLB计费

专有网络VPC

专有网络VPC(Virtual Private Cloud)是您专有的云上私有网络,允许用户在公共云上配置和管理一个逻辑隔离的网络区域。用户能够完全掌控自己的专有网络,包括选择自己的IP地址范围、创建交换机、配置路由表和网关等。

免费,详情参见产品计费

名词解释

名称

说明

RPO

RPO (Recovery Point Objective, 恢复点目标):以时间为单位,即在灾难发生时,系统和数据必须恢复的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。

RTO

RTO (Recovery Time Objective, 恢复时间目标):以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。

站点对

在跨地域容灾或跨可用区容灾时,需要将数据从一个站点复制到另一个站点,因此需要对这两个站点进行配对,称为站点对。每个容灾站点对可以创建多个保护组。一个站点对中的保护组的容灾方向只有正向保护一个方向。例如A保护组容灾到B保护组,正向保护是地域1到地域2,C保护组容灾到D保护组,正向保护是地域2到地域1,需要创建两个站点对。保护组只可属于一个站点对。

保护组

一个保护组可包含多个ECS实例,便于客户使用一个计划对多个ECS进行同一个时间点的操作。保护组正常状态分为启动复制中、全量复制中、增量复制中、正在切换、故障切换完成、反向复制中、故障恢复中、故障恢复完成等;其异常状态包含复制出错、切换失败、恢复失败等。一个保护组下面的所有保护实例角色应该一致,因为保护组中的所有ECS只能一起做故障切换。

保护实例

被保护的ECS实例或未来支持的数据库等。角色分为。主指当前运行业务的实例,备指当前用作容灾使用的实例。

生产站点

用户生产业务初始运行的可用区或地域。

容灾站点

用户用于生产业务容灾的可用区或地域。

故障切换

当生产站点发生故障时,切换业务到容灾站点的过程。包括两种类型,计划(planned failover)和非计划(unplanned failover),区别在于切换时生产站点ECS是否已经宕机。

故障恢复

当生产站点故障恢复时,将业务从容灾站点切回到生产站点的过程。

正向保护

用于保护组和ECS的状态。生产站点数据和业务复制到容灾站点。

反向保护

用于保护组和ECS的状态。当故障切换后,容灾站点B变为“生产站点”,生产站点A变为“容灾站点”。此时重启保护后,数据复制为起始时的反向,方向为B-->A,称为反向保护。故障恢复后,A回到生产站点状态,B回到容灾站点状态,此时启动复制A-->B,回到正向保护状态。

安全性

身份管理

为确保您的阿里云账号及云资源使用安全,如非必要都应避免直接使用阿里云账号(即主账号)来访问云备份。推荐的做法是使用RAM身份(即RAM用户和RAM角色)来访问云备份。身份管理相关文档参考:

服务关联角色

云备份使用服务关联角色获取云服务器ECS、专有网络VPC、对象存储OSS、文件存储NAS等资源的访问权限。通常情况下,服务关联角色是在您开启某项备份功能、创建备份计划或者为数据源关联备份策略时时,由云备份自动创建。在自动创建服务关联角色失败或云备份不支持自动创建时,您需要手动创建服务关联角色。详情请见云备份服务关联角色

数据安全

云备份提供备份源端加密,并支持基于SSL/TLSHTTPS加密传输,有效防止数据在云端的潜在安全风险。

  • 云备份对备份数据在源端完成AES256加密后传输上云并加密保存。默认情况下云备份使用自行管理的密钥加密数据,您也可以使用自己账号的密钥管理服务KMS(Key Management Service)的密钥。

  • 云备份支持通过HTTPHTTPS的方式访问。安全传输层协议(SSL/TLS)用于在两个通信应用程序之间提供保密性和数据完整性。

监控与报警

云备份已接入阿里云基础云监控系统事件服务供您免费使用,可实现对备份任务状态进行实时监控。同时支持发送备份报警通知。

注意事项

基本事项

  1. 云盘异步复制容灾在可用地域、可用区、云盘类型、网络、配置额度等方面存在限制。更多信息,请参见使用限制

  2. 启动复制后,系统会在容灾站点自动创建按量付费的ECS实例,由ECS和云盘复制产品收取费用。更多信息,请参见ECS按量付费

    • 选择节省停机模式时,资源不会预留,容灾站点实例在故障切换时可能因库存不足存在启动失败的风险。 更多信息,请参见按量付费实例节省停机模式

    • 修改停机模式可能会短暂启动(容灾保护组内)容灾站点的ECS,请谨慎评估业务,做好隔离措施,避免多实例运行造成业务风险。

    • 计费方式是包年包月的ECS实例,不支持开启释放保护。

云备份容灾方式

云备份提供两种ECS容灾方案,云盘异步复制型容灾(EBS Async)连续复制型容灾(CDR)。本次实施将使用云盘异步复制型容灾模式,若您对RPO无特殊需求,或受限于连续复制型容灾的操作系统使用限制,推荐您使用云盘异步复制型容灾(RPO=15分钟),无需安装客户端占用ECS资源,不受操作系统限制,整体方案费用更低。更多信息,请参见如何选择ECS容灾方式

IP白名单

ECS中的应用程序需要访问某些中间件或存储实例,例如Redis,RDS等。为保障相关服务实例的安全稳定,通常需要将ECS客户端的IP地址或IP地址段添加到实例的白名单中,正确使用白名单可以让实例得到高级别的访问安全保护。需要确保将容灾ECS实例的IP地址或IP地址段正确添加到白名单中,保障故障切换时,客户端能够正常访问到相关的服务。

故障恢复时业务可用性保障

在故障切换和故障恢复过程中,会停止保护组内的被保护的实例,再启动容灾的实例,在这个过程中,会造成业务的短暂不可用。在故障切换时,由于生产站点故障,服务短暂不可用在该冷备场景下是无法避免的。但在故障恢复时,生产站点和灾备站点都处于健康的状态,如果对业务可用性有较高的要求,应在创建保护组步骤中,创建多个保护组,在故障恢复时,分批恢复,确保始终存在存活的ECS节点能够提供服务。

实施步骤

实施准备

开通云备份服务

您需要开通云备份服务,详情参见开通云备份

资源规划

在容灾前,您需要整理待保护ECS所使用的实例规格、网络分配、存储如云盘类型和容量等信息。了解容灾端地域和可用区是否有足够限额创建容灾资源。云备份容灾服务支持容灾的地域和可用区可能会存在限制,详情参见地域和可用区限制

网络

容灾过程会将生产站点所有数据通过容灾站点的网络复制到容灾站点。您需要创建好容灾站点要使用的VPC、交换机和安全组规则。具体操作,请参见搭建IPv4专有网络创建和管理交换机创建安全组

ECS实例

在不同地域和可用区,云备份容灾服务支持容灾的地域和可用区可能会存在限制。ECS实例需创建在云备份支持的地域,才能使用云备份的容灾服务,详情参见地域和可用区限制。云盘类型存在限制,仅支持ESSDESSD AutoPL类型的云盘。

实施规划

本次实施将演示企业如何通过云备份(HBR)服务实现ECS同城灾备(跨可用区级别的灾备)。将上海可用区B作为生产站点,上海可用区F作为容灾站点。在生产站点ECS示例上安装Docker,运行Nginx服务模拟客户业务服务,模拟生产站点故障时,通过云备份故障切换到容灾站点,ALB监听后端可用服务,路由至容灾站点,由容灾站点ECS实例继续提供服务。

部署清单

本次部署内容及详细说明如下,实际部署以客户实际需求为准:

站点

组件

部署内容

生产站点

网络

  1. 上海地域部署专有网络VPC(192.168.0.0/16)

  2. 上海可用区B部署交换机(192.168.0.0/24)

ECS

  1. 两台同规格ECS模拟生产机器:ecs.e-c1m1.large (2 vCPU 2 GiB)、ESSD AutoPL 40GiB

  2. 一台测试ECS,用于验证业务可用性

ALB

  1. 多可用区部署(上海可用区B)

容灾站点

网络

  1. 共用一个专有网络VPC(192.168.0.0/16)

  2. 上海可用区F部署交换机(192.168.1.0/24),与生产站点交换机网段可用的IP数量保持一致

ECS

由云备份服务自动创建

ALB

  1. 多可用区部署(上海可用区F)

实施时长

在实施准备工作完成的情况下,本方案实施预计时长:40分钟。

操作步骤

资源规划

在配置容灾前,请确保待保护的ECS资源及容灾站点要使用的VPC、交换机等资源已经创建完毕,本次实施预先创建的资源请参考实施规划

创建容灾站点对

容灾站点对用于配置生产站点和容灾站点的地域、网络VPC、可用区,及其容灾使用的复制技术类型。进行容灾操作前,您需要创建容灾站点对,用于容灾站点资源统一管理。

  1. 登录云备份控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 本次实施使用云盘异步复制型容灾,如果不是云盘异步复制型容灾,需切换到云盘异步复制型容灾。

  4. 若是首次使用云备份ECS容灾服务,需要进行授权操作,会自动创建一个服务关联角色, 以便提供容灾服务。单击授权按钮。

  5. 容灾站点对页签,单击创建容灾站点对

  6. 创建容灾站点对面板,填写各项参数,然后单击确定

    各项参数说明如下:

    参数类型

    参数名称

    参数说明

    容灾类型

    类型

    容灾类型。该场景取值跨可用区容灾。

    • 跨可用区容灾:将主地域可用区数据异步复制到主地域的另一个可用区。

    • 跨地域容灾:将主地域数据异步复制到另一个容灾地域。

    生产站点信息、容灾站点信息

    名称

    为生产站点和容灾站点命名,名称不得超过60个字符。一个可辨识的名称即可,容灾网关部署等操作需在站点对创建完成后进行。

    • 生产站点用于指定需要容灾的服务器在云上的位置。

    • 容灾站点灾备用的计算和存储资源都会在选中的专有网络环境中创建。

    地域

    生产站点和容灾站点所在地域,即容灾数据保存的地域。

    VPC

    生产站点和容灾站点所使用的专有网络VPC。

    可用区

    生产站点和容灾站点所使用的可用区。

容灾站点对创建完成后,您可以在容灾站点对列表页面中找到已创建的容灾站点对。

如配置有误,您可以单击该容灾站点对右侧对应的删除,删除已创建的容灾站点对,之后再创建。

设置网络与安全

接下来介绍容灾前需要准备的网络与安全设置操作,包括网络交换机和安全组映射。

添加交换机映射

请参考以下步骤创建交换机映射。

  1. 容灾站点对页签,单击目标容灾站点对,选择网络与安全

  2. 交换机映射页签,单击添加交换机映射

  3. 新增交换机映射对话框,选择生产站点网络和容灾站点网络使用的交换机。单击确认

创建完成后,您可以在交换机映射页签找到已创建的交换机映射。

如配置有误,您可以单击该交换机映射右侧对应的编辑、删除按钮,进行修改和删除操作。

添加安全组映射

请参考以下步骤创建安全组映射。

  1. 容灾站点对页签,单击目标容灾站点对,选择网络与安全

  2. 安全组映射页签,单击添加安全组映射

  3. 新增安全组映射对话框,选择生产站点安全组和容灾站点安全组。单击确认

    • 生产站点安全组:生成站点ECS所使用的安全组。安全组规则是您自定义的访问控制规则,用于控制安全组内ECS实例的出入站流量,可以实现对云资源的访问控制和网络安全防护。

    • 自动创建容灾安全组:打开开关表示自动在容灾站点创建安全组。

    • 容灾站点安全组:容灾站点ECS所使用的安全组。

    • 自动同步规则:自动同步生产站点安全组规则到目标容灾站点。该功能可确保生产站点ECS实例安全组和容灾站点ECS实例安全规则一致。

创建完成后,您可以在安全组映射页签找到已创建的安全组映射。

如配置有误,您可以单击该安全组映射右侧对应的编辑、删除按钮,进行修改和删除操作。

创建保护组

在创建保护组前,您必须创建网络交换机和安全组映射。具体操作,请参见设置网络与安全

一个保护组中可包含多个ECS实例,便于您使用一个计划对多个ECS实例进行统一操作。使用云盘异步复制技术进行容灾时,需要创建保护组。接下来介绍创建保护组的操作步骤。

  1. 容灾站点对页签,单击目标容灾站点对,选择保护组

  2. 保护组页签,单击创建保护组

  3. 创建保护组对话框,填写以下各项参数,然后单击确认

    参数名称

    参数说明

    名称

    保护组名称,一个可辨识的名称。保护组名称命名规范如下:

    • 长度为2~128个英文或中文字符。

    • 必须以大小字母或中文开头,不能以http://https://开头。

    • 可以包含数字、半角冒号(:)、下划线(_)或者连字符(-)。

    预期RPO

    固定取值为15,单位为分钟。该保护组预期的RPO,即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。

创建完成后,您可以在保护组页签找到已创建的保护组。

添加保护实例

将需要容灾保护的ECS服务器添加到保护组,同时您可以修改容灾站点实例规格、手动指定容灾端的IP地址等。接下来介绍添加待保护实例的操作步骤。

  1. 容灾站点对页签,单击目标容灾站点对,选择保护组

  2. 保护组页签,在目标保护组的操作列,单击管理保护实例

  3. 保护实例列表页面,单击添加保护实例

  4. 添加保护实例面板,选择待保护的实例(此处选择用于模拟生产环境的两台ECS实例),然后单击下一步

  5. 确认资源项,确认实例的基础信息、资源信息等,然后单击确认

添加完成后,您可以在该保护组中找到已添加的保护实例。实例的状态为已初始化

启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动创建按量付费的ECS实例。

请参考以下步骤启动复制。

  1. 容灾站点对页签,单击目标容灾站点对,选择保护组

  2. 保护组页签,在目标保护组的操作列,单击启动复制

  3. 确认启动复制面板中,确认配置和资源,然后单击确认。此时,保护组复制会依次进入启动复制中全量复制中增量复制中

    • 启动复制中:云备份准备启动复制,在容灾端创建容灾实例,并启动数据复制。

    • 全量复制中:云备份正在把整台服务器的有效数据传输到容灾站点。

    • 增量复制中:全量复制完成后,容灾站点上已经复制了初始的全量数据。接下来持续地将生产端写入的数据进行增量复制到容灾站点,满足RPO要求。

注意:

  1. 启动复制后,系统会在容灾站点自动创建按量付费的ECS实例,由ECS和云盘复制产品收取费用。更多信息,请参见ECS按量付费

  2. 选择节省停机模式时,资源不会预留,容灾站点实例在故障切换时可能因库存不足存在启动失败的风险。 更多信息,请参见按量付费实例节省停机模式

  3. 当容灾站点实例规格和实例操作系统不满足要求时,您可以根据生产站点ECS实例规格、操作系统和界面提示,选择合适的实例规格。您可以通过修改实例规格和修改操作系统修改容灾站点实例规格和操作系统。若规格族和操作系统无法满足您的需求,请提工单联系阿里云技术支持。

  4. 启动容灾复制前,您也可以修改自定义数据和修改容灾端IP。在保护实例的详情页面网络信息页签,您可以手动指定容灾端的IP地址。

  5. 修改停机模式可能会短暂启动(容灾保护组内)容灾站点的ECS,请谨慎评估业务,做好隔离措施,避免多实例运行造成业务风险。

待保护组状态为增量复制中后,容灾站点上已经复制了生产站点初始的全量数据,登录ECS控制台,可以看到云备份服务已经创建出了和生产站点同配置的ECS实例:

ALB添加ECS实例

接下来利用应用型负载均衡ALB服务有效分配客户端负载,实现可靠的请求分发。

  1. 登录应用型负载均衡ALB控制台

  2. 在顶部菜单栏处,选择后端服务器组所属的地域。

  3. 在左侧导航栏,选择应用型负载均衡ALB > 服务器组

  4. 服务器组页面,单击创建服务器组

  5. 创建服务器组对话框,完成以下配置,然后单击创建。有关各项配置的详细描述,参见创建服务器组

在创建后端服务器组之后,您需要添加后端服务器来处理转发请求。在向服务器组添加云服务器ECS实例前,确保您已创建了ECS实例并部署了相关应用,用来接收转发的请求。该示例中,在生产站点的两台ECS上,已通过Docker部署了Nginx服务,模拟用户业务。

  1. 服务器组页面,找到目标服务器组,然后在操作列单击编辑后端服务器

  2. 后端服务器页签,单击添加后端服务器

  3. 添加后端服务器面板,选中生产站点的2ECS和灾备站点的2ECS,然后单击下一步

  4. 配置端口和权重配置向导页面,设置添加的服务器的端口和权重,然后单击确定

接下来需要添加一个HTTP监听来转发来自HTTP协议的请求。

  1. 实例页面,在目标实例操作列单击创建监听

  2. 配置监听配置向导,完成以下配置,然后单击下一步。本示例监听HTTP 80端口,有关配置的详细描述,参见创建HTTP监听

  3. 选择服务器组配置向导,选择上一步创建好的服务器组,查看后端服务器信息,然后单击下一步

  4. 配置审核配置向导,确认配置信息,然后单击提交

配置好监听后,健康检查状态会显示为异常,这是因为容灾站点的2ECS处于关停状态,ALB此时不会将请求转发到容灾站点。

应用验证

在实例页面获取到该ALB实例的DNS名称,这是一个内网地址,复制该地址用于验证:

登录到用于验证的ECS,执行如下命令:

curl <ALB实例的DNS名称>

成功返回了Nginx页面信息。代表此时生产站点在正常运行。

创建云助手命令

云助手命令可以在ECS实例中快速完成运行自动化运维脚本、轮询进程、重置用户密码、安装或卸载软件、更新应用以及安装补丁等一些日常任务。命令类型可以是Windows PowerShell脚本、Bat批处理命令和Linux Shell脚本,命令中支持自定义参数,方便设置变量值。

本示例中,希望ECS在每次启动时自动执行相关指令,运行业务程序。在故障切换或故障恢复时,通过云助手自动执行运维命令,避免人工运维。

  1. 登录ECS管理控制台

  2. 在左侧导航栏,选择运维与监控 > 云助手

  3. 在页面左侧顶部,选择云助手命令所属资源组与所在的地域。

  4. 在页面右上角,单击创建/执行命令

  5. 命令信息区域,设置参数。有关参数的更多详细信息,参见创建命令。本示例中,将执行两条简单的命令,模拟在ECS启动时,运行应用程序:

    #!/bin/bash
    
    # 启动docker
    systemctl start docker
    
    # 启动应用程序
    docker start webserver
  6. 执行计划选择系统每次启动后

  7. 选择实例选择托管实例区域,选中生产站点和容灾站点的所有ECS实例(由于只有运行中和已安装云助手的实例才可以执行该操作,此时需要手动启动容灾站点的实例,待创建完云助手命令后再停机)。

  8. 单击执行并保存

故障切换(可选)

保护组进入增量复制状态后,您就可以进行故障切换操作。有两种故障切换类型:

  • 数据同步后切换:该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用于计划内容灾演练,业务迁移等场景。

  • 立即切换:该故障切换会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,数据在RPO范围内有部分丢失。该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

接下来模拟生产站点发生故障,需要立即切换到容灾站点的场景:

  1. 登录云备份控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 容灾站点对页签,单击目标容灾站点对,选择保护组

  4. 保护组页签,在目标保护组的操作列,单击,选择正向保护>故障切换

  5. 启动故障切换对话框中,选择立即切换,配置实例规格不足时的处理策略,单击确定。保护组的状态变更为正在切换。故障切换完成后,保护组状态变更为故障切换成功

  6. 容灾切换完成后,单击保护组对应的管理保护实例,进入保护实例列表页面。

  7. 单击容灾站点实例ID/名称下的链接,验证ECS数据与应用。

    1. 再次进行应用验证步骤,验证业务是否正常。

  8. 验证完成后,在保护组的操作列,单击,选择正向保护>完成切换。保护组状态变更为确认切换完成。此时,生产站点的ECS实例状态为已停止,容灾ECS实例状态为运行中

完成切换后,需要启动反向复制,反向复制的目的是将容灾站点数据复制到生产站点,为故障恢复做准备。

  1. 在左侧导航栏,选择容灾 > ECS容灾

  2. 容灾站点对页签,单击目标容灾站点对,选择保护组

  3. 保护组页签,在目标保护组的操作列,单击选择启动反向复制

  4. 启动反向复制面板,单击确认。保护组状态变更为反向复制中

故障恢复(可选)

此时容灾站点对外提供服务,待生产站点恢复正常后,用户可以选择切换回生产站点提供服务(若业务无影响,也可以保持使用容灾站点,将生产站点作为新的容灾端)。参考以下步骤启动故障恢复。

  1. 登录云备份控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 容灾站点对页签,单击目标容灾站点对,选择保护组

  4. 保护组页签,在目标保护组的操作列,单击,选择反向保护>故障恢复

  5. 启动故障恢复对话框中,选择数据同步后切换,配置停机模式、实例规格不足时处理策略,单击确定。保护组的状态变更为故障恢复中。故障恢复完成后,保护组状态变更为故障恢复完成。此时,生产站点的ECS实例状态为运行中,容灾ECS实例状态为已停止

  6. 确认故障恢复完成后,单击,选择反向保护>完成恢复。确认完成恢复后,保护组状态变更为初始化

注意:在故障恢复过程中,会先停止容灾站点的实例,再启动生产站点的实例,在这个过程中,会造成业务的短暂不可用。如果对业务可用性有较高的要求,应在创建保护组步骤中,创建多个保护组,在故障恢复时,分批恢复,确保始终存在存活的ECS节点能够提供服务。

故障演练(可选)

故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在容灾站点正常拉起。

  • 确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。

故障演练前提条件

  • 保护组处于增量复制中或者已有恢复点之后,您就可以进行故障演练。如何创建保护组,请参见创建保护组章节。

  • 对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。

云备份提供两种方式创建演练环境:

创建方式

适用场景

优点

缺点

自动创建并启动

适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。

  • 配置简单。指定保护组后,系统自动创建演练环境所需资源,包括VPC网络、交换机映射和安全组映射。

不可自定义演练后新创建的ECS实例名称的前缀。自定义的ECS实例名称有利于您快速识别故障演练ECS。

创建自定义演练环境

适合业务和其他网络有交互,需要额外的网络方面配置才可验证的场景。演练环境配置好以后可以一直保留。

  • 可以自定义演练后新创建的ECS实例名称的前缀,有利于您快速识别故障演练ECS。

  • 自行规划和创建演练环境资源。包括手动创建演练VPC或者选择容灾站点VPC,创建交换机、安全组映射等。

  • 配置复杂。您需要单独指定演练VPC、配置交换机映射、安全组映射,可能存在实例IP冲突,导致演练失败。

接下来介绍ECS容灾中故障演练的操作流程(本示例将介绍自定义演练环境场景)。

  1. 登录云备份控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 容灾站点对页面,单击目标容灾站点对,选择故障演练页签。

  4. 单击创建自定义演练环境

  5. 创建演练环境对话框,设置故障演练后新创建ECS实例名称的前缀,从下拉框中选择演练VPC,然后单击确认

  6. 配置演练环境网络。在演练环境区域,单击演练网络配置参数后的详情

    演练网络配置对话框,添加交换机映射和安全组映射。

  7. 演练环境区域,单击启动演练,开始故障演练。

  8. 启动演练对话框,从下拉框选择保护组,单击下一步

  9. 预览保护组资源,确认完成后,单击确认

  10. 确认启动演练对话框,单击确认,启动演练。

    1. 启动容灾复制前,您也可以修改自定义数据和修改容灾端IP。

    2. IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射或手动修改容灾端IP。

  11. 确认启动演练对话框,单击确认,启动演练。

    1. 保护组会暂停当前复制组复制,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,复制组暂停会在5分钟内自动恢复。演练磁盘就绪后,演练ECS会在容灾站点创建出来,等演练组创建成功后即可开始验证业务。

    2. 保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请用户谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。

    3. 演练保护组状态会先后进入初始化演练中演练组创建成功状态。

  12. 演练组创建成功成功后,您就可以验证业务。

  13. 清理演练环境。

    1. 删除故障演练组。删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。

    2. 删除演练环境。在演练环境区域,单击删除,完成确认,即可删除。

查看告警(可选)

为了保证在灾难发生时可快速切换至容灾站点并使用最近的数据恢复业务,建议您及时查看和处理容灾站点上报的告警。本文介绍如何查看容灾站点的RPO监控和告警、处理告警和查看告警历史。

  1. 登录云备份控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 容灾站点对页签,单击目标容灾站点对。

  4. 查看告警和RPO监控。

    1. 概览页的告警区域,您可以查看当前容灾站点的告警和统计信息。

    2. 概览页的RPO监控区域,您可以查看当前容灾站点的RPO监控信息。

  5. 单击容灾告警页签。

    1. 控制台以列表形式展示当前上报的告警。当系统上报告警后,请您检查容灾站点实例等相关操作和配置,核对并进行相应处理。处理完成后或者无需处理时,单击确认进行告警确认操作。

    2. 您可以通过链接直接跳转到上报告警的站点对。

故障排除

添加实例时,无法勾选实例

云盘异步复制容灾在可用地域、可用区、云盘类型、网络、配置额度等方面存在限制。具体原因,您可以根据控制台提示进行相应处理。更多信息,请参见使用限制

启动复制时,控制台提示容灾站点实例规格异常

保护实例的实例规格在容灾站点不可用或无库存。建议您按照界面提示,通过修改实例规格修改为支持的规格类型。同时,当提示操作系统异常、IP地址异常时,您可以通过修改操作系统修改容灾端IP来解决操作系统和IP地址冲突问题。

故障切换失败

保护组状态为故障切换失败

请在控制台,根据提示,单击失败任务ID,在历史任务页签,查看详细报错原因。

例如Not have any stock of instance type family ...,表示没有此规格实例族。您需要在保护实例列表页面修改容灾站点实例规格后重试。

一致性复制组状态不匹配

这是由于生产站点或灾备站点的云盘发生了容量变更,导致复制失败。当ECS云盘变配或者扩缩容时,原有的云盘复制任务会失败,目前暂时不支持在容灾过程中变配云盘或阔缩容,选择下述任意一种方式进行修复:

  1. 进行保护组清理操作,再重新创建保护组,重新建立映射关系。

  2. 把有变更的云盘对应的ECS先移除保护组,再重新加入保护组

相关内容