同城容灾

MaxCompute同城容灾用于应对运营商网络故障、IDC停电、机房设施故障、集群故障等场景。通过开启多AZ存储容灾和多AZ计算高可用,可有效降低业务停机时间,满足业务保障需求和行业合规要求。

功能介绍

MaxCompute同城容灾支持将数据存储服务和计算服务的可用性从单一可用区(Availability Zone)扩展到同城三个可用区,并利用同城三个可用区之间的物理隔离特性与低延迟的网络连接,提供跨数据中心的数据实时同步和故障隔离能力,确保业务系统不会因单一数据中心故障而中断服务,从而增强客户业务的抗风险能力。

MaxCompute同城容灾包含多AZ存储容灾和多AZ计算高可用,详情介绍如下:

  • AZ存储:是以项目(Project)为单位开启,支持将存量数据从单一可用区本地存储转换为三个可用区冗余存储,增量数据直接同步写入到三个可用区。当遇到AZ级故障时,存储容灾可以保障数据读取和写入服务不中断,数据不丢失,满足数据恢复点目标RPO=0的需求。多AZ存储支持保存项目中的全量用户数据,包括元数据、用户权限、全部表类型、物化视图、UDF、资源(Resource)等。

  • AZ计算高可用:将AZ高可用计算资源与开启数据AZ存储的项目绑定,实现数据存储和计算的整体同城容灾能力。可以在多个AZ中预留充足的多AZ高可用计算资源,当遇到AZ级故障时,计算资源会自动从故障AZ切换到可正常提供服务的AZ。多AZ高可用计算资源支持运行全部作业类型,包括SQL Task、MaxFrame、Cupid Task、MapReduce Task等。

image

灾难恢复指引

实现同城容灾功能后当发生AZ级故障时,将会进行以下恢复操作:

  1. 用户收到阿里云MaxCompute关于故障情况的通知。

  2. 服务端会立即在可正常提供服务的AZ调配计算资源,系统自检项目中表、分区、权限等数据的完整性和可用性。

  3. 客户端已提交的作业会出现运行失败的情况,需要重新提交作业,访问MaxCompute的配置无需修改,如Endpoint、认证信息、project_name、quota_name等。

  4. 作业恢复运行后,继续关注上层业务运行情况,确保业务整体恢复正常。

应用场景

  • 金融行业

    保障银行的金融服务可以不间断地分析和处理业务交易数据,并避免因数据中心的故障而导致服务中断。

  • 关键基础设施

    保障电力、水务以及交通等数据分析系统,确保因数据中心故障而导致的社会民生依赖的关键信息服务不发生中断。

客户价值

  • 数据冗余备份。

  • 降低业务停机时间。

  • 满足行业合规要求。

  • 提供更好的上层业务客户体验。

适用范围

地域限制:华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、华东 2 金融云、中国香港、新加坡、印度尼西亚(雅加达)地域支持同城容灾。

计费说明

image

使用说明

需要开启多AZ存储容灾和多AZ计算高可用能力,才能实现存储和计算的整体同城容灾能力。

  • 在存储容灾准备过程中,作业运行不受影响,业务保持无感知状态。

  • 在存储容灾准备过程中,历史表分区数据正在进行流式写入时,存储容灾数据准备任务将等待至写入提交后才启动。建议客户定期(每天、每周)切换至新分区写入数据,以确保所有表和分区完成多AZ存储转换。

  • 开启存储容灾产生的本地备份数据、TimeTravel数据留在原可用区中本地存储。

  • 开启存储容灾产生的本地备份数据、TimeTravel数据会分布在三个可用区中冗余存储。

开启AZ存储容灾

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏,选择管理配置 > 灾备管理 。

  3. 灾备管理页面,单击同城容灾页签。

  4. 单击新增同城容灾,在弹出的添加同城容灾能力对话框,请选择需要容灾的项目。勾选确认将项目添加为同城容灾项目,单击确定

  5. 创建完成后,该项目数据将开始进行存储容灾准备,即将单可用区(AZ)数据迁移至三可用区(3AZ)存储。数据准备过程预计需要两天,完成后项目将具备存储容灾能力。

开启多AZ计算高可用(部分地域可用)

开启多AZ计算高可用能力,需要购买多AZ高可用计算资源并将目标项目的默认计算Quota配置为多AZ高可用计算资源。该功能目前仅部分地域可用。

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏,选择管理配置 > 配额(Quota)管理 。

  3. Quota管理页面,单击新购Quota

  4. 在资源购买页面,配置购买参数。

    1. 规格类型:选择AZ高可用计算资源

    2. AZ高可用计算资源单元:选择要购买的CU数。目前是50 CU起售,增量购买需要是1的整数倍。

  5. 单击立即购买,根据界面提示支付费用,完成购买。

    在左侧导航栏,选择管理配置 > 配额(Quota)管理 。

    可以查看已创建的AZ高可用计算资源

  6. 将目标项目的默认计算Quota配置为多AZ高可用计算资源。

    1. 登录MaxCompute控制台,在左上角选择地域。

    2. 在左侧导航栏,选择管理配置 > 项目管理

    3. 项目管理页面,单击目标项目操作列的管理

    4. 项目配置页面,选择参数配置页签。

    5. 基础信息区域,单击编辑

    6. 默认计算Quota配置为多AZ高可用计算资源,然后单击提交

容灾资源观测

在容灾资源观测页面可以查看项目容灾的整体状态、可用区(AZ)监控信息和表数据详情。

  1. 登录MaxCompute控制台,在左上角选择地域。

  2. 在左侧导航栏,选择管理配置 > 灾备管理 。

  3. 灾备管理页面,单击同城容灾页签。

  4. 同城容灾页面,单击已启用容灾的目标项目名称,进入项目级容灾资源观测页面。

    • 基本信息区域,查看当前项目容灾整体状态。如可用区(AZ)、管控信息容灾、当前状态、容灾创建时间和上次故障切换时间。

      • 当前状态准备中,表示数据正在做多AZ存储转换。

      • 当前状态正常,表示数据已经在多AZ中存储,具备AZ级存储容灾能力。

    • 可用区(AZ)监控

      展示多AZ高可用计算的监控信息,用户可以查看购买并绑定到项目的多AZ高可用计算资源所在的AZ信息。

      • 可用区AZ使用中:表示用户作业运行在该AZ。

      • 可用区AZ(预留):表示如果用户作业运行的AZ出现故障计算资源将切换到该AZ。

    • 表数据详情

      根据Schema名称和表名精确查询目标表。默认不选,则展示该项目下所有表数据信息。

      列名称

      说明

      Schema名称

      项目下Schema。

      表名称

      表名称信息。

      是否分区表

      该表是否为分区表。

      数据最后更新时间

      该表最后一次数据更新时间。

      数据量

      该表的数据量大小。

      数据分布

      该表数据分布可用区。

      • 可用区状态为(准备中):表示数据正在做多AZ存储转换。

      • 可用区状态为(使用中):表示数据已经在多AZ中冗余存储。

      操作

      若为分区表,单击查看分区详情,获取该分区表各分区的数据最后更新时间数据量数据分布

灾难恢复演练

若有灾难恢复演练需求,MaxCompute提供项目级灾难模拟和逃逸的演练方案,具体流程如下。

  1. 用户需先提交工单到阿里云申请进行灾难恢复演练,提供Region、Project Name、Quota Name、演练时间段信息,演练时间建议选择业务低峰时进行。

  2. 工单经过阿里云审核通过后,MaxCompute会在项目级容灾资源观测页面提供故障切换按钮,用户可根据系统提示自助切换计算资源运行的可用区(AZ),实现灾难逃逸,逃逸后新提交的作业将立即执行,因切换AZ过程造成的执行失败作业需要用户手动重试。

重要

上述操作仅用于演练场景,真实AZ级灾难发生时,系统将自动完成计算资源的故障切换。

取消容灾

  1. 在左侧导航栏,选择管理配置 > 灾备管理 。

  2. 灾备管理页面,单击同城容灾页签。

  3. 同城容灾页签中,单击目标项目对应的操作列的取消容灾

  4. 在弹出的取消同城容灾能力对话框中,勾选确认要取消项目的容灾能力,单击确定

重要
  • 取消容灾属于高危操作,取消容灾后项目将立刻失去容灾能力,请谨慎评估。

  • 取消容灾后项目数据重新分布到单可用区本地存储。