Flink JAR Batch节点支持通过提交JAR包的方式运行Flink批处理任务。您可以在DataWorks中选择已上传的Flink Jar资源作为作业入口,配置入口类和调度参数后,完成大规模数据批处理任务的开发与发布。本文介绍如何在DataWorks中开发和配置Flink JAR Batch节点。
前提条件
已在管理中心绑定实时计算Flink版计算资源,详情请参见绑定全托管Flink计算资源。
已上传Flink Jar资源,详情请参见Flink资源与函数。
已创建Flink JAR Batch节点,详情请参见创建调度工作流的节点。
已为DataWorks调用实时计算Flink版OpenAPI使用的RAM用户或RAM角色新增授权以下OpenAPI权限。该授权用于将节点任务提交并部署到Flink集群。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": ["stream:CreateDeployment", "stream:UpdateDeployment", "stream:GetDeployment", "stream:DeleteDeployment"], "Resource": ["*"] } ] }
使用限制
仅支持使用Serverless资源组,不支持旧版独享调度资源组。
步骤一:配置Flink JAR Batch节点
在Flink JAR Batch节点编辑页面,配置以下参数信息。
配置主界面参数
在节点编辑页面左侧区域,配置以下参数。
参数 | 描述 |
JAR 文件 | 必填。下拉选择已在资源管理中上传的Flink Jar资源。 |
Entry Point Class | 程序的入口类。如果JAR包未指定主类,需要在此处输入Entry Point Class类的标准路径。 |
Entry Point Main Arguments | 作业参数。在主方法里面调用该参数,支持输入多个参数。 |
附加依赖文件 | 下拉选择已上传的Flink File作为附加依赖文件。 说明 如果Flink计算资源中的部署目标选择为Session集群,则附加依赖文件不生效。 |
配置调度
您可在编辑页面右侧调度配置框中配置以下参数。
Flink资源信息
参数 | 参数描述 |
Flink 集群 | 在管理中心绑定的全托管Flink计算资源名称。 |
Flink 引擎版本 | 您可根据实际情况选择引擎版本。 |
资源组 | 选择与Flink网络连通的Serverless资源组。 |
Job Manager CPU | 根据Flink的最佳实践,JobManager至少需要0.5核CPU和2 GiB内存来确保稳定运行,建议配置为1核CPU和4 GiB内存,最大不超过16核CPU。 |
Job Manager Memory | JobManager的内存配置影响其处理调度和管理任务的能力,推荐配置范围是2 GiB到64 GiB。 |
Task Manager CPU | TaskManager的CPU资源配置影响其任务处理能力。建议配置至少0.5核CPU和2 GiB内存,推荐1核CPU和4 GiB内存,最大不超过16核CPU。 |
Task Manager Memory | TaskManager的内存配置决定了其处理任务的数据量和性能。内存大小至少应为2 GiB,最大可设置为64 GiB。 |
并发度 | 决定了Flink作业中任务的并行执行数量。支持勾选自动推断,由系统根据作业特性自动设置并发度。 |
最大 Slot 数 | 作业可使用的最大Slot数量,用于限制作业的资源上限。 |
每个 TaskManager Slot 数 | 每个TaskManager的Slot数决定了它可以并行执行的任务数量。 |
调度参数
您可在调度参数中配置调度参数,实现调度场景下的动态传参。调度参数使用详情请参见调度参数来源及其表达式。
其他调度相关配置(包括Flink 运行参数、调度策略、调度时间、调度依赖等),请参见Flink SQL Batch节点中的相应配置说明。
完成任务配置后,单击保存节点任务。
步骤二:运行Flink JAR Batch节点
任务需要发布至运维中心后才可执行,请参考界面引导对需要运行的Flink JAR Batch节点执行发布操作,详情请参见节点/工作流发布。发布后可在运维中心查看周期实例的运行情况。