ECS容灾常见问题

ECS容灾中云盘异步复制容灾和连续复制型容灾的常见问题。

云盘异步复制型容灾

云盘异步复制型容灾,支持哪些实例规格?有哪些使用限制?

云盘异步复制型容灾方案,广泛兼容多数实例规格。

云盘异步复制型容灾的使用限制。

  • 地域及可用区限制:公测期间地域逐步放开中,以创建站点对时可选地域与可用区为准。相关信息,请参见使用限制

  • 云盘规格:支持ESSD云盘和ESSD AutoPL(不含entry)。更多信息,请参见使用限制

  • ECS网络限制。

    • 单网卡限制。

      部分操作系统在切换后不能自动配置容灾端网卡。请在故障切换后参考配置辅助弹性网卡检查和配置容灾端网卡,确保网络正常工作。

    • 多网卡限制。

      • ECS实例在绑定辅助弹性网卡后,部分镜像无法自动识别辅助弹性网卡的IP地址并添加路由,导致无法正常使用辅助弹性网卡。

      • 若ECS实例配置了辅助弹性网卡,请您在后续容灾切换后及时参考辅助网卡配置文档检查确认辅助弹性网卡的IP地址,确保辅助弹性网卡正常工作。具体操作,请参见配置辅助弹性网卡

    • 不支持站点对VPC之外的弹性网卡和ECS实例。

ECS云盘异步复制型容灾在哪里修改容灾端IP地址?

  • 在实例的详情页面网络信息页签,您可以修改容灾端的IP地址。

  • 在确认启动复制时预览基础信息面板,您可以修改容灾端的IP地址。

ECS云盘异步复制型容灾支持ECS变配吗?

保护组首次启动复制前,在如下情况支持ECS变配:

  • 在保护组的初始设置过程中,若磁盘数量及总容量未超出预设限制,系统将自动同步现有配置至容灾端,并支持新增磁盘的变配到容灾端。

  • 在系统停机期间,可执行磁盘挂载、卸载、扩容操作,以及进行云盘命名修改和基于快照的回滚。

  • 基于交换机与安全组映射条件下,支持安全组-实例添加、安全组-实例移除、弹性网卡-解绑实例、弹性网卡-修改安全组。

后续操作阶段,不支持ECS变配:

  • 一旦保护组进入运行状态,任何对生产端或容灾端的配置变更均可能影响容灾切换和恢复。

  • 执行不支持的操作可能会导致系统异常并触发告警。

  • 发生异常或告警时,需根据业务需求谨慎评估后再做决策。参考方案如下:

    • 正向复制阶段

      若需在正向复制过程中调整配置,可考虑暂停复制流程,随后移除受影响的保护实例,再按需重新添加,确保数据同步的一致性。

    • 反向复制阶段

      在反向复制时,推荐的策略是先移除相关保护实例,然后创建一个新的容灾站点,以保障数据安全与服务连续性。

ECS云盘异步复制型容灾,添加实例时,无法勾选实例,如何处理?

云盘异步复制容灾在可用地域、可用区、云盘类型、网络、配置额度等方面存在限制。具体原因,您可以点击备选实例ID左侧图标,查看不能添加保护的原因并进行相应处理。更多信息,请参见使用限制

2024-08-23_17-07-03.png

ECS云盘异步复制型容灾启动复制时,控制台提示容灾站点实例规格异常,如何处理?

这是因为保护实例的实例规格在容灾站点不可用或无库存。建议您按照界面提示,通过修改实例规格修改为支持的规格类型。同时,当提示操作系统异常、IP地址异常时,您可以通过修改操作系统修改容灾端IP来解决操作系统和IP地址冲突问题。

保护组为启动复制失败、故障切换失败、故障恢复失败时如何定位和处理?

以保护组状态显示为故障切换失败为例。

image.png

  • 请在控制台,根据提示,单击失败任务ID,在历史任务页签,查看详细报错原因。

image.png

  • 如:Not have any stock of instance type family ...,表示没有此规格实例族。您需要在保护实例列表页面修改容灾站点实例规格后重试。

ECS连续复制型容灾和云盘异步复制型容灾有什么区别?

云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见云盘异步复制功能原理

相比连续复制型容灾(CDR),云盘异步复制技术与其差异如下。

对比项

连续复制型容灾

云盘异步复制容灾

主要支持场景

适用单虚机容灾。适用不介意系统侵入的客户。

适用虚机组一致性容灾。适用于不希望有系统侵入的客户。

系统侵入性

复制实现

通过在被保护实例上安装Agent嵌入OS,实时复制磁盘上写入的数据并发送到网关。,网关将数据传输中转站OSS进行存储,最终写入容灾站点磁盘。

通过块存储的云盘异步复制、快照等机制实现数据复制。

恢复实现

支持多恢复点。

备站创建被保护实例的shadowECS和网关机,从数据中转站拉取数据并通过shadowECS写入,然后基于快照机制创建出恢复点。

仅支持单恢复点。

通过快照复制到备端生成恢复点。

一致性保护组

不支持

支持

容灾ECS或演练ECS无法进入操作系统?

当遇到容灾ECS或演练ECS无法进入操作系统的状况,首先应确认生产站点ECS的启动方式,是BIOS还是UEFI。这两种方式不能混用,为保证容灾ECS能在灾难恢复时正常启动到操作系统,需选用和生产环境ECS相同启动方式的镜像来创建容灾ECS实例。这样能防止因启动方式不同导致的操作系统无法启动问题。更多信息,请参见ECS的启动模式

云盘异步复制型容灾如何计算复制的数据量?

云盘异步复制分为正向复制和反向复制。

  • 正向复制

    包括初始全量复制和后续增量复制。

    • 全量复制是复制云盘的所有数据,其大小等于云盘的实际存储总量。

    • 增量复制则是在全量复制后,每15分钟一次,仅复制这段时间内发生改变的数据,而数据的大小取决于这段时间内数据的变化量。

  • 反向复制

    目前仅支持复制到原实例,不进行全量复制。容灾切换后启动反向复制,系统会每隔15分钟进行一次增量复制。此数据量取决于这15分钟内源端数据的变化量。

容灾端ECS及其关联的云盘保留策略?

  • 长期保留。

    一旦容灾端ECS和云盘被创建,将会一直保留,直至生产站点上手动移除相应的保护实例。资源默认不会被自动回收。

  • 故障切换情况下的保留策略。

    如果业务已经在容灾站点激活运行(即保护组状态显示为容灾切换完成或确认切换完成),即使选择移除保护实例,容灾端的ECS和云盘也不会被系统自动回收。

  • 故障演练资源的管理。

    在进行故障演练时创建的ECS和云盘,在演练结束后通过删除演练组被系统自动回收。

  • 生产站点资源的影响。

    容灾服务不会回收生产端ECS和云盘。

  • ECS与云盘计费模式。

    1. ECS的计费与在执行启动、复制、切换、恢复操作时所选的停机方式相关。更多信息,请参见节省停机模式。关于付费优惠抵扣,请参见按量付费优惠抵扣

    2. 云盘异步复制功能的计费方式为包年包月和按量付费。更多信息,请参见计费说明

不使用容灾切换和容灾恢复操作能直接启动容灾端或生产端ECS吗?

不能。当保护组正处于反向复制模式下(复制中或复制停止后),目标端云盘会被自动设置为只读模式,旨在防止因目标端ECS意外启动而导致的数据不一致。若需验证灾难恢复预案的有效性,推荐采用容灾演练功能;而面对业务快速恢复需求,则应采取正式的容灾切换或容灾恢复流程。

什么是云盘异步复制型容灾中的RTO?

  • RTO(Recovery Time Objective)指的是在灾难发生后,从启动灾难恢复计划开始,直到业务系统完全恢复正常运作并达到预设的服务水平目标所需要的时间。

  • 云盘异步复制容灾切换和恢复的RTO通常为分钟级,从触发切换操作开始到ECS启动完成。

  • 容灾演练RTO和ECS系统盘的数据量大小呈正相关。根据业务服务的复杂性不同,RTO应当额外考虑服务启动和检测完成的时间。

连续复制型容灾

ECS连续复制型容灾的RPO和RTO是多少?

将企业自建数据中心内运行的核心业务数据实时复制上云,达到秒级到分钟级的RPO。在自建数据中心发生重大故障时,几分钟内在云上拉起,达到分钟级RTO。

ECS连续复制型容灾支持哪些操作系统?

CDR支持主流的Windows和Linux操作系统。更多信息,请参见操作系统

ECS容灾服务目前仅支持以下服务器版本。

重要

暂不支持更多操作系统。其他操作系统建议您使用云盘异步复制型容灾,其不受操作系统限制。

操作系统

版本

Windows Server

2008R2、2012、2012R2、2016

Linux

重要

Linux系统的/boot分区和/分区必须在同一磁盘,若不满足同一磁盘要求,建议手动调整磁盘后,再注册受保护实例进行ECS容灾。

  • Red Hat Enterprise Linux 7.0~7.9

  • Red Hat Enterprise Linux 6.0~6.10

  • CentOS 7.0~7.9

  • CentOS 6.0~6.10

    说明

    目前仅支持64位系统CentOS。

  • SuSE Linux Enterprise Server 12.0~12.3

    重要
    • 目前仅支持64位系统Enterprise Server。

    • SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题,出现此类问题与ECS容灾服务无关。

  • Alibaba Cloud Linux 2.1903 LTS 64位

    目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:

    • 4.19.91-25.1.al7.x86_64

    • 4.19.91-24.1.al7.x86_64

    • 4.19.91-23.al7.x86_64

    • 4.19.91-22.2.al7.x86_64

ECS连续复制型容灾快照保留策略都有哪些?

ECS容灾的恢复点功能利用复影磁盘的快照功能,确保被容灾保护的服务器可以恢复到指定的历史版本。

快照保留策略:

说明

如果恢复点已经用于容灾演练或切换,则不受下述规则约束。

  • 最近一天的恢复点全部保留

    例如当前UTC时间为2020-10-12T17:00:00Z,最近一天的时长为2020-10-11T00:00:00Z至2020-10-12T17:00:00Z,共41个小时。

  • 最近一周的恢复点保留每天最后一个

  • 最近一个月的恢复点保留每周最后一个

  • 超过一个月的恢复点都不保留

ECS连续复制型容灾是否支持源端增扩盘?

目前仅支持云上容灾(跨地域及跨可用区)站点对中Linux系统的ECS进行源端增扩盘。

源端ECS进行在线扩容或者新增磁盘后,ECS容灾在5分钟内可以探测到磁盘变化。ECS容灾会停止服务器当前复制,自动调整目标端Shadow的磁盘容量,然后对复制进行修复,完成后会恢复到实时复制状态。该操作取决于磁盘大小,可能会持续较长时间,您可以在控制台观察到修复复制到实时复制的状态变化。整个过程自动完成,您无需任何操作。

重要

ECS容灾暂不支持源端缩容或减盘操作,可能导致复制出错或数据丢失。

镜像失败时如何修复?

  • 问题现象

    在尝试开始数据复制或是预览容灾演练方案时,系统将会提示引导镜像错误。如下图所示:

    image

  • 原因分析

    在启动复制时,云备份(Cloud Backup)首先会在容灾站点上利用代理镜像创建对应的容灾ECS实例。随后,它将从主站点复制数据到新创建的ECS上,并在复制周期结束后生成或更新恢复点。当执行容灾演练时,云备份(Cloud Backup)会基于代理镜像在容灾环境中创建一个用于演练的ECS,并采用最新的恢复点替换到容灾站点。

    由于云备份(Cloud Backup)不直接干预操作系统的内部运作,如果生产环境中的ECS镜像因为升级、下线或删除等原因变得不可用,云备份(Cloud Backup)可能无法准确地识别ECS的启动模式及操作系统版本信息。这可能导致在实际进行容灾切换或是容灾演练过程中,目标端的ECS无法正常启动。有关启动模式的最佳实践,可参考ECS实例启动模式最佳实践

  • 解决方法

    • 自动修复

      在预览时,如果系统提示镜像存在问题,您可以通过单击查看详情来获取更多信息。

      image

      在弹出的详情对话框中,您可以为一台或多台ECS实例选择合适的可用镜像进行配置。云备份(Cloud Backup)功能结合了云助手服务,提供了一键修复功能,您可通过单击修复进行自动修复。该功能会自动运行脚本来检测ECS实例的启动模式、操作系统及其版本等关键信息,并据此智能匹配合适的可用引导镜像。您可以在云助手控制台中查看所有执行操作的具体细节。

      image

    • image

    • 手动修复

      如果自动修复功能未能找到合适镜像,您可以登录ECS系统确认启动模式和操作系统版本。随后,根据实际情况修改ECS引导镜像,并继续进行复制或容灾演练。