Flink JAR Streaming节点支持通过提交JAR包的方式运行Flink实时任务。您可以在DataWorks中选择已上传的Flink Jar资源作为作业入口,配置入口类和运行参数后,完成实时数据处理任务的开发与发布。本文介绍如何在DataWorks中开发和配置Flink JAR Streaming节点。
前提条件
已在管理中心绑定实时计算Flink版计算资源,详情请参见绑定全托管Flink计算资源。
已上传Flink Jar资源,详情请参见Flink资源与函数。
已创建Flink JAR Streaming节点,详情请参见创建调度工作流的节点。
已为DataWorks调用实时计算Flink版OpenAPI使用的RAM用户或RAM角色新增授权以下OpenAPI权限。该授权用于将节点任务提交并部署到Flink集群。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": ["stream:CreateDeployment", "stream:UpdateDeployment", "stream:GetDeployment", "stream:DeleteDeployment"], "Resource": ["*"] } ] }
使用限制
该节点不支持在工作流中使用,仅支持作为独立节点进行开发和运行。
仅支持使用Serverless资源组,不支持旧版独享调度资源组。
步骤一:配置Flink JAR Streaming节点
在Flink JAR Streaming节点编辑页面,配置以下参数信息。
配置主界面参数
在节点编辑页面左侧区域,配置以下参数。
参数 | 描述 |
JAR 文件 | 必填。下拉选择已在资源管理中上传的Flink Jar资源。 |
Entry Point Class | 程序的入口类。如果JAR包未指定主类,需要在此处输入Entry Point Class类的标准路径。 |
Entry Point Main Arguments | 作业参数。在主方法里面调用该参数,支持输入多个参数。 |
附加依赖文件 | 下拉选择已上传的Flink File作为附加依赖文件。 说明 如果Flink计算资源中的部署目标选择为Session集群,则附加依赖文件不生效。 |
配置Flink资源
您可在编辑页面右侧实时配置框的Flink 资源信息中根据资源模式配置如下参数信息,详情请参见配置作业资源。
参数 | 参数描述 |
Flink 集群 | 在管理中心绑定的全托管Flink计算资源名称。 |
Flink 引擎版本 | 您可根据实际情况选择引擎版本。 |
资源组 | 选择与Flink网络连通的Serverless资源组。 |
资源模式 | 支持以下两种模式,详情请参见配置作业资源。
|
Job Manager CPU | 根据Flink的最佳实践,JobManager至少需要0.5核CPU和2 GiB内存来确保稳定运行,建议配置为1核CPU和4 GiB内存,最大不超过16核CPU。 |
Job Manager Memory | JobManager的内存配置影响其处理调度和管理任务的能力,推荐配置范围是2 GiB到64 GiB。 |
Task Manager CPU | TaskManager的CPU资源配置影响其任务处理能力。建议配置至少0.5核CPU和2 GiB内存,推荐1核CPU和4 GiB内存,最大不超过16核CPU。 |
Task Manager Memory | TaskManager的内存配置决定了其处理任务的数据量和性能。内存大小至少应为2 GiB,最大可设置为64 GiB。 |
并发度 | 决定了Flink作业中任务的并行执行数量,较高的并发度可以提高处理速度和资源利用率,您需要根据集群资源和作业特性进行合理设置。 |
每个 TaskManager Slot 数 | 每个TaskManager的Slot数决定了它可以并行执行的任务数量,您可通过调整Slot配置优化资源利用和作业的并行处理能力。 |
(可选)配置脚本参数
您可在右侧导航栏的实时配置框的脚本参数中单击添加参数,并编辑相应的参数名、参数值信息。
(可选)配置Flink运行参数
您可在右侧导航栏的实时配置框的Flink 运行参数中配置如下参数信息,详情请参见配置作业部署信息。
参数 | 描述 |
系统检查点间隔 | 配置该参数决定了Flink作业定时执行系统检查点的时间间隔,较短的间隔可以减少故障恢复时间但会增加系统开销。如果不填写,将会关闭系统检查点。 |
两次系统检查点之间的最短时间间隔 | 配置该参数定义了Flink在连续检查点之间必须等待的最小时间,以防止过于频繁的检查点对系统性能造成影响。 |
State数据过期时间 | 配置该参数决定了Flink作业中状态数据在没有被访问或更新的情况下可以保留的最长时间,默认值为36小时。 重要 此处默认值根据云上最佳实践的经验值设置,与开源的默认值不同(开源默认值为0,表示状态信息永不过期)。 |
其它配置 | 支持Flink的其他运行参数配置,例如: |
完成任务配置后,单击保存节点任务。
步骤二:启动Flink JAR Streaming节点
发布Flink JAR Streaming节点。
任务需要发布至运维中心后才可执行,请参考界面引导对需要运行的Flink JAR Streaming节点执行发布操作,详情请参见节点/工作流发布。
启动Flink JAR Streaming节点。
任务发布后,您可以单击发布到生产环境下方的去运维,在运维中心的中找到需要启动的任务,单击任务操作列的启动按钮,启动并查看实时计算任务的运行情况。