资源组高可用能力说明

DataWorks Serverless资源组默认采用多可用区(至少同城双可用区)部署架构。当单个可用区发生故障,系统会通过资源冗余和任务自动故障转移(failover)机制,将任务切换至其他可用区,保障数据开发任务的连续性和稳定性。

核心概念

概念

描述

Serverless资源组高可用

DataWorks Serverless资源组通过多可用区部署,在一个可用区发生故障时,自动将任务调度到其他可用区执行,以保障业务连续性。

故障转移 (failover)

当某个可用区的计算资源或服务不可用时,系统自动将该可用区内的失败任务,重新调度到其他可用区执行的过程。

资源可用率

在特定时间点,资源组可供任务使用的计算资源(CU)的比例。单可用区故障会导致整体资源池缩减,资源可用率会相应下降。

功能介绍

按量付费和包年包月计费模式的Serverless资源组均默认支持多可用区部署。工作原理如下图所示:

image

常见问题

Q: Serverless资源组的高可用能力是否意味着任务永远不会失败或等待?

A: 否。高可用保障的是服务连续性,而非资源无限供给或任务100%成功。在单可用区故障期间,需要关注以下情况:

  • 资源可用率下降:当某个可用区故障后,资源组的整体计算资源池会缩减。这可能导致任务因等待资源而排队。

  • 任务失败与重试:故障可用区中正在运行的任务会失败,系统随后会在其他可用区尝试重新调度(failover)。因此,任务需具备可重跑能力,建议配置任务失败自动重跑策略

  • 外部依赖风险:高可用需要全链路支持。如果任务依赖的外部系统(如数据库、消息队列)不具备高可用能力,即使DataWorks资源组成功进行故障转移,任务仍会因无法连接外部依赖而失败。

Q: 哪些场景默认不支持高可用?

A: 配置为以下用途的DataWorks资源组,默认不支持高可用能力:

  • 个人开发环境

  • 数据服务

  • 模型服务