本文为您介绍如何在批作业中开启远程Shuffle服务,从而缓解磁盘容量不足的问题,并确保作业高效稳定运行。
背景信息
在传统的Flink批处理场景中,本地磁盘作为Shuffle数据的存储载体,充分利用了数据本地化的优势,显著提升了处理效率。然而,这一方案受限于本地物理磁盘的容量,在面对超大规模数据时,往往需要同时增加Flink的计算资源和存储资源。这一方式存在潜在的计算资源浪费,可能会为您带来较大的成本开销。
为了解决上述问题,我们推出了远程Shuffle服务并于公测阶段免费开放。Flink批作业在开启远程Shuffle服务后,Shuffle数据将存储到高性能的Apache Celeborn集群中,作业不再受限于Flink计算节点的磁盘容量,从而增强超大规模数据的处理能力,同时保持作业的高稳定性和成本效益。
此功能目前正处于公测阶段,请在生产环境下谨慎使用。如遇问题,欢迎提交工单,我们将迅速响应,提供专业协助。
远程 Shuffle 服务在公测阶段目前暂未支持所有地区,已支持的地区详见远程Shuffle服务可用区域。若您发现作业所在地区尚未支持,请联系我们,我们将在第一时间为您开通服务。
使用限制
仅支持非Session模式的批作业。
此功能仅实时计算Flink VVR 8.0.9及以上版本支持。
作业所在地区已支持远程Shuffle服务,详见远程Shuffle服务可用区域。
操作步骤
进入批作业参数配置入口。
登录实时计算控制台。
单击目标工作空间操作列下的控制台。
在左侧导航栏上,选择
。在作业模式下拉列表中,选择批作业。
单击目标作业详情,单击运行参数配置区域右侧的编辑。
在其他配置中,增加如下代码信息。
execution.batch.remote-shuffle.enabled: true
单击保存。
参数保存后会在新启动的批任务中生效。
远程Shuffle服务可用区域
上海
乌兰察布
若您的作业所在地区尚未开通远程Shuffle服务,请即刻联系我们开通服务。