批作业开启远程Shuffle服务_实时计算 Flink版(Flink)-阿里云帮助中心

本文为您介绍如何在批作业中开启远程Shuffle服务，从而缓解磁盘容量不足的问题，并确保作业高效稳定运行。

背景信息

在传统的Flink批处理场景中，本地磁盘作为Shuffle数据的存储载体，充分利用了数据本地化的优势，显著提升了处理效率。然而，这一方案受限于本地物理磁盘的容量，在面对超大规模数据时，往往需要同时增加Flink的计算资源和存储资源。这一方式存在潜在的计算资源浪费，可能会为您带来较大的成本开销。

为了解决上述问题，我们推出了远程Shuffle服务并于公测阶段免费开放。Flink批作业在开启远程Shuffle服务后，Shuffle数据将存储到高性能的Apache Celeborn集群中，作业不再受限于Flink计算节点的磁盘容量，从而增强超大规模数据的处理能力，同时保持作业的高稳定性和成本效益。

重要

此功能目前正处于公测阶段，请在生产环境下谨慎使用。如遇问题，欢迎提交工单，我们将迅速响应，提供专业协助。
远程Shuffle服务暂时只支持新网络架构，目前仍有部分存量工作空间尚未升级完成，您可以联系我们在第一时间为您升级。
远程 Shuffle 服务在公测阶段目前暂未支持所有地区，已支持的地区详见远程Shuffle服务可用区域。若您发现作业所在地区尚未支持，请联系我们在第一时间为您开通服务。

使用限制

仅支持非Session模式的批作业。
此功能仅实时计算Flink VVR 8.0.9及以上版本支持。
作业所在工作空间已升级新网络架构，详情请参见网络架构升级。
作业所在地区已支持远程Shuffle服务，详见远程Shuffle服务可用区域。

操作步骤

进入批作业参数配置入口。
1. 登录实时计算控制台。
2. 单击目标工作空间操作列下的控制台。
3. 在左侧导航栏上，选择运维中心 > 作业运维。
4. 在作业模式下拉列表中，选择批作业。
5. 单击目标作业详情，单击运行参数配置区域右侧的编辑。
在其他配置中，增加如下代码信息。
```
execution.batch.remote-shuffle.enabled: true
```
单击保存。
参数保存后会在新启动的批任务中生效。

远程Shuffle服务可用区域

上海
乌兰察布
新加坡

说明

若您的作业所在地区尚未开通远程Shuffle服务，请即刻联系我们开通服务。