文档

FLINK

更新时间:
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

FLINK任务类型用于执行Flink程序。本文为您介绍创建FLINK类型任务时涉及的参数,并提供了FLINK任务的示例。

参数说明

参数

说明

节点名称

任务的名称。一个工作流定义中的节点名称是唯一的。

运行标志

  • 正常(默认):运行工作流时执行该任务。

  • 禁止执行:运行工作流不会执行该任务。

描述

当前节点的功能描述。

任务优先级

流程运行的优先级。支持以下级别:

  • HIGHEST:最高。

  • HIGH:高。

  • MEDIUM(默认):中。

  • LOW:低。

  • LOWEST:最低。

失败重试次数

工作流运行失败自动重试的次数。

失败重试间隔

每次失败重试的间隔。单位:分。

延时执行时间

延时执行时间,默认为0,即立即执行,设置了该值后才执行延时操作。单位:分。

超时告警

该开关默认关闭。打开超时告警开关,可设定超时时长,并选择至少一个超时策略。

  • 选择超时告警策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。

  • 选择超时失败策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。

任务提交节点

  • 调度资源组节点(默认):任务在Workflow的调度资源组节点提交。

  • EMR集群worker节点(提交到Yarn执行):任务在EMR集群的Worker节点提交,占用一个YARN Container。

    警告

    该模式会直接影响EMR集群的文件系统或运行环境,请谨慎操作。

    使用该模式,您还可以选择配置以下参数:

    • 调度队列:指定任务提交的YARN队列。

    • 任务执行容器内存(MB):指定任务执行容器的内存。默认值为1024。

    • 虚拟核数:指定任务执行容器的虚拟核数(vCores)。默认值为1。

    • 优先级:指定任务执行容器的优先级(0-100)。默认值为0,数值越大,优先级越高。

    • 执行用户:默认提交任务的用户为dolphinscheduler。标准集群(非高安全集群),如果需要设置执行用户,请确保YARN服务包含如下配置项:

      • yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor

      • yarn.nodemanager.linux-container-executor.nonsecure-mode.limit-users=false

说明

如果程序类型选择为SQL,则任务提交节点默认仅支持EMR集群worker节点(提交到Yarn执行)方式。

程序类型

支持JAVASCALAPYTHONSQLCUSTOM_SCRIPT语言。

说明

选择的类型不同,展示的参数也不同,具体以控制台为准。

主函数的Class

Flink程序的入口Main Class的全路径。

主程序包

执行Flink程序的JAR包。通过资源中心上传,详情请参见资源中心

部署方式

仅支持cluster模式部署。

初始化脚本

当程序类型为SQL时,请填写初始化脚本。

脚本

当程序类型为SQL时,请填写SQL语句。

当程序类型为CUSTOM_SCRIPT时,请填写完整的Flink命令。

任务名称

Flink程序的名称。

JobManager内存数

用于设置JobManager内存数,请根据实际生产环境设置。

TaskManager内存数

用于设置TaskManager内存数,请根据实际生产环境设置。

Slot数量

用于设置Slot数量,请根据实际生产环境设置。

并行度

用于设置执行Flink任务的并行度。

主程序参数

设置Flink程序的输入参数,支持自定义参数变量的替换。

选项参数

填写Flink命令所需的选项参数。例如,-yt-C

资源

选择任务执行时所需的资源文件,请确保您已在资源中心文件管理页面,创建或者上传了相应的文件。选择所需文件后,您可以在任务脚本中通过完整路径引用它们。例如,path/to/test.txt

自定义参数

任务自定义参数,会替换脚本中${变量}的内容。更多参数配置信息,请参见参数说明

前置任务

设置当前任务的前置(上游)任务。

任务示例

通过自定义脚本提交Flink任务

程序类型选择CUSTOM_SCRIPT,引用上传到Workflow资源中心的文件,脚本内容示例如下:

  • Flink类型作业支持JAR包形式的Flink Datastream、Table和SQL作业。

    flink run -m yarn-cluster -yjm 1024 -ytm 2048 \
    path/to/oss/of/WordCount.jar \
    --input oss://path/to/oss/to/data \
    --output oss://path/to/oss/to/result
  • EMR-3.x系列自EMR-3.28.2版本开始,Flink类型作业同时支持PyFlink作业。

    flink run -m yarn-cluster -yjm 1024 -ytm 2048 -py path/to/oss/of/word_count.py
说明
  • path/to/oss/of/WordCount.jar用来指定Flink任务所需的资源文件。资源文件需要通过资源中心上传,详情请参见资源中心。上传并选择所需文件后,您可以在任务脚本中通过完整路径引用它们。

  • --input oss://path/to/oss/to/data--output oss://path/to/oss/to/result用来指定作业的数据输入路径和数据输出路径,请您根据实际信息替换。