Serverless资源组的多可用区故障转移机制与限制-DataWorks-阿里云

DataWorks Serverless资源组默认采用多可用区（至少同城双可用区）部署架构。当单个可用区发生故障，系统会通过资源冗余和任务自动故障转移（failover）机制，将任务切换至其他可用区，保障数据开发任务的连续性和稳定性。

核心概念

概念	描述
Serverless资源组高可用	DataWorks Serverless资源组通过多可用区部署，在一个可用区发生故障时，自动将任务调度到其他可用区执行，以保障业务连续性。
故障转移 (failover)	当某个可用区的计算资源或服务不可用时，系统自动将该可用区内的失败任务，重新调度到其他可用区执行的过程。
资源可用率	在特定时间点，资源组可供任务使用的计算资源（CU）的比例。单可用区故障会导致整体资源池缩减，资源可用率会相应下降。

按量付费和包年包月计费模式的Serverless资源组均默认支持多可用区部署。工作原理如下图所示：

Q: Serverless资源组的高可用能力是否意味着任务永远不会失败或等待？

A: 否。高可用保障的是服务连续性，而非资源无限供给或任务100%成功。在单可用区故障期间，需要关注以下情况：

资源可用率下降：当某个可用区故障后，资源组的整体计算资源池会缩减。这可能导致任务因等待资源而排队。
任务失败与重试：故障可用区中正在运行的任务会失败，系统随后会在其他可用区尝试重新调度（failover）。因此，任务需具备可重跑能力，建议配置任务失败自动重跑策略。
外部依赖风险：高可用需要全链路支持。如果任务依赖的外部系统（如数据库、消息队列）不具备高可用能力，即使DataWorks资源组成功进行故障转移，任务仍会因无法连接外部依赖而失败。

Q: 哪些场景默认不支持高可用？

A: 配置为以下用途的DataWorks资源组，默认不支持高可用能力：