ECS容灾恢复方案

针对单可用区运行故障风险,通过数据备份与跨可用区迁移实现快速恢复,解决因成本限制或容灾要求较低导致的单点故障问题。本文从云盘数据、系统镜像及可用区故障场景,提供业务快速恢复的解决方案。

应用场景

场景

说明

云盘数据恢复

使用ECS快照,可对云盘进行快照回滚或通过快照创建新的云盘,将因数据丢失或误操作影响的云盘,快速恢复至创建快照时的状态。创建快照后的数据不会保留,适用于版本回溯型修复。

说明

使用ECS快照会产生快照容量费用。更多信息,请参见快照计费

系统镜像恢复

使用自定义镜像,可对ECS实例进行全量备份与恢复,将因系统崩溃或配置错误影响的业务环境,快速还原至创建镜像时的状态。创建镜像后的数据不会保留,适用于系统级环境重建。

说明
  • 保有自定义镜像会收取自定义镜像关联的快照容量费用。

  • 如果自定义镜像的最终来源为付费镜像且您使用该自定义镜像创建ECS实例,则需要收取镜像License费用。

更多信息,请参见镜像计费

跨可用区迁移

借助跨可用区迁移能力,可将业务系统及关联资源(云盘、镜像等)快速复制到目标可用区,规避单可用区物理故障导致的业务中断风险。跨可用区迁移将触发实例重启(公网IP可能变更/私有IP必变),若原可用区存储故障将导致迁移中断,建议业务低峰期操作。

说明
  • 迁移不需要提前备份,但单可用区云盘异常可能导致跨可用区迁移数据失败。

  • 跨可用区迁移可能会产生相关费用。更多信息,请参见跨可用区迁移计费

云盘数据恢复

  1. 通过快照备份数据

    场景

    说明

    通过快照手动备份数据

    通过创建快照对系统盘/数据盘进行备份。具体操作,请参见创建快照

    使用自动快照策略

    配置自动快照策略实现定期备份,具体操作,请参见使用自动快照

    通过OOS创建多实例快照

    通过运维编排服务(OOS)对多台ECS实例的云盘批量创建快照,具体操作,请参见批量给云盘创建快照

  2. 通过快照恢复数据

    场景

    说明

    使用快照回滚

    当云盘因为误删除、误修改或者因为勒索病毒的原因造成数据丢失时,使用云盘的历史快照可以对云盘进行回滚操作,从而使云盘的数据恢复到创建快照的时候的状态。具体操作,请参见使用快照回滚云盘

    跨可用区恢复

    当前可用区的ECS实例和云盘均出现故障,可使用现有云盘的快照跨可用区创建新的云盘,并挂载到新建的ECS实例上,实现跨可用区的服务和数据恢复。具体操作,请参见使用快照创建云盘

系统镜像恢复

  1. 通过镜像备份数据

    场景

    说明

    使用实例创建自定义镜像

    通过自定义实例配置(软件/环境)并创建镜像,可快速部署相同的实例。具体操作,请参见使用实例创建自定义镜像

    使用快照创建自定义镜像

    基于现有系统盘快照生成完整环境镜像,实现系统环境快速复制。具体操作,请参见使用快照创建自定义镜像

  2. 通过镜像恢复数据

    您可以使用已有镜像快速创建具有相同操作系统、应用程序和数据的ECS实例,通过镜像进行数据恢复。具体操作,请参见使用自定义镜像创建实例

跨可用区迁移

服务器迁移中心(Server Migration Center,简称SMC)是阿里云提供给您的迁移平台。专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。

迁移原理

跨可用区迁移原理如下图所示:

image

迁移原理说明如下:

  1. 用户创建跨可用区迁移任务。

  2. SMC服务调用底层块存储能力进行云盘数据跨可用区复制及其变更实例规格等属性。

迁移流程

跨可用区迁移流程如下图所示。

image

迁移流程说明如下:

  1. 迁移前准备

    在使用SMC进行ECS实例跨可用迁移前,您需要注册阿里云账号、完成实名认证、开通RAM服务、开通快照等。具体操作,请参见迁移前准备

  2. 跨可用区迁移

    SMC支持将阿里云ECS云服务器迁移到同地域的不同可用区,同时也支持在同规格族内更改实例规格(vCPU和内存),满足您迁移ECS云服务器和变配实例规格的业务需求。具体操作,请参见跨可用区迁移操作

  3. 验证迁移结果

    SMC支持多种迁移场景,您可以根据需要创建对应的迁移任务,完成迁移操作。具体操作,请参见验证迁移结果

故障演练验证

  • 云盘数据异常演练和恢复

    在云盘数据异常或者丢失时,可以将云盘数据恢复到创建快照时的状态,通过故障注入和演练恢复能够加深对操作的理解。具体操作,请参见云盘数据异常演练和恢复

  • 应用环境的故障演练和恢复

    基于预装镜像一键还原ECS实例,快速重建异常环境的操作系统及软件配置,保障业务连续性。具体操作,请参见镜像备份的故障演练和恢复

  • SMC跨可用区演练和恢复

    使用SMC实现实例跨可用区迁移,支持目标区规格不足时动态调整实例类型,通过单区宕机模拟验证容灾有效性。具体操作,请参见SMC跨可用区演练和恢复