文档

配置参数说明

更新时间:

本文介绍开发节点的基本属性和运行属性参数。因为各个节点的不同,基本属性和运行属性参数也存在差异,我们按照通用参数和其他参数来介绍,其中通用参数我们梳理在通用参数中,各个节点的差异参数在其他参数中介绍。

基本属性

通用参数

配置项

说明

节点名称

节点的名称,支持用户自定义。

节点标识

节点的唯一标识,支持用户自定义,同一个工作组必须是唯一的,不可重复。

节点目录

设置节点的所属目录。

节点描述

节点的描述性信息,方便用户理解和查找。

节点资源文件

仅当节点类型为Spark Batch、Spark SQL、Elastic Job和MaxCompue MR、Elastic Service、Blink、Blink DataStream、Flink DataStream、Flink Vvp Stream、Flink Vvp Stream、Flink Vvp SQL、Flink Vvr Stream、Flink Vvr SQL、Flink SQL和Spark Stream类型时支持,上传本地编写完成的节点资源文件。

入口类名

仅当节点类型为Spark Batch、Spark Stream、Flink Vvr Stream、Flink Vvp Stream、Flink DataStream类型时出现。Java函数入口类名,用来作为程序入口的运行函数。

其他参数

Elastic Service

GPU

选中使用 GPU 时,可使用GPU 对该Elastic Service节点做计算。

后续在场景中新建该Elastic Service计算节点时,您可在运行属性中设置单实例 GPU 卡数

模型

选中使用模型:把模型管理的服务地址透传到算法启动参数,节点内部实现时即可调用对应的Java或Python版本的模型管理 SDK 来操作模型列表中的模型。

代码包

开发语言

当前支持JavaPython两种语言,支持的版本如下:

  • JavaJava 7Java 8

  • PythonPython 3.6

您需要根据运行节点的实际环境来选择开发语言开发语言版本

开发语言版本

节点附件

支持上传单个.zip资源文件包。

自定义镜像

镜像名称

Elastic或者image格式。

镜像版本号

输入版本号。

健康检查方式

用来判断镜像启动后是否正常。

  • HTTP健康检查默认请求/health, 返回码200表示成功。

  • SHELL健康检查默认执行根目录下的checkHealth.sh文件,命令退出返回0表示成功。

服务端口

输入服务端口号,镜像服务对外透出的端口。

运行属性

通用参数

参数

说明

计算引擎

开发

开发环境使用资源,用于在开发环境中运行。

生产

生产环境使用资源,用于在生产环境中运行。

开发资源组

资源组是发布任务的资源池。设置后,可查看当前公共节点所属的开发资源组和生产资源组,请至系统设置 > 资源组管理中设置。

节点变量

变量名

变量的名称。

变量值

设置变量的值,为字符串(String)类型。

说明

变量的说明信息。

节点输入

输入标识

节点的输入参数标识。

输入数据结构

输入表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中提供数据的数据表的结构。

  • 当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同,物理表名可以自定义。

  • 当选择星号(*)时,代表数据结构为任意结构,用于对未新建数据模型的表进行操作,此时物理表必须选择已经存在的表。

开发环境

物理表所在资源

开发环境中节点输入使用的物理表所在资源。

物理表名

开发环境中节点输入参数的物理表名,可自定义新建物理表名或者选择已物理化至资源库中的物理表名。

  • 当输入数据结构为星号(*)时,输入物理表名必须选择已经存在的物理表。

  • 当输入数据结构为具体的模型结构时,填写物理表名,系统会自动执行物理化。

  • 当打开依赖上游开关时,且本节点输入参数连接到上游节点输出参数时,则本节点输入参数对应的物理表依赖上游输出,为上游节点输出物理表,不能手动再修改。

生产环境

物理表所在资源

生产环境中节点输入使用的物理表所在资源。

物理表名

生产环境中节点输入的物理表名,可自定义新建物理表名或者选择已物理化至资源库中的物理表名。

  • 当输入数据结构为星号(*)时,输入物理表名必须选择已经存在的物理表。

  • 当输入数据结构为具体的模型结构时,填写物理表名,系统会自动执行物理化。

  • 当打开依赖上游开关时,且本节点输入参数连接到上游节点输出参数时,则本节点输入参数对应的物理表依赖上游输出,为上游节点输出物理表,不能手动再修改。

节点输出

输出标识

节点的输出参数标识。

输出数据结构

输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。

  • 当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同,物理表名可以自定义。

  • 当选择星号(*)时,代表数据结构为任意结构,此时物理表必须选择已经存在的表。

自定义输出

单击开关1开关,打开自定义开关以后,您可自定义选择资源和资源下的物理表。

开发环境

物理表所在资源

开发环境中节点输出使用的物理表所在资源。

物理表名

开发环境节点输出的物理表名,可自定义新建物理表或者选择已物理化至资源库中的物理表名。

  • 当输出数据结构为星号(*)时,物理表必须选择资源库中已经存在的物理表。

  • 当输出数据结构为具体的模型结构时,填写物理表名,系统会自动执行物理化。

  • 当输出数据结构为具体的模型结构且数据资源类型为MaxCompute、Hive、AnalyticDB PostgreSQL、PostgreSQL时,系统会自动生成节点的输出物理表,当需要修改时,可打开自定义开关以后修改。

生产环境

物理表所在资源

生产环境中节点输出使用的物理表所在资源。

物理表名

生产环境节点输出的物理表名,可自定义新建物理表或者选择已物理化至资源库中的物理表名。

  • 当输出数据结构为星号(*)时,物理表必须选择资源库中已经存在的物理表。

  • 当输出数据结构为具体的模型结构时,填写物理表名,系统会自动执行物理化。

  • 当输出数据结构为具体的模型结构且数据资源类型为MaxCompute、Hive、AnalyticDB PostgreSQL、PostgreSQL时,系统会自动生成节点的输出物理表,当需要修改时,可打开自定义开关以后修改。

上游依赖节点

新建依赖节点

单击新建依赖节点,手动新建依赖节点。

自动解析依赖节点

单击自动解析依赖节点,当存在依赖节点时,系统自动解析生成。

依赖类型

该依赖节点的类型,分类场景节点依赖和自定义节点依赖。

所属工作区

该依赖节点的所属工作区。

场景名称/工作流

该依赖节点的类型,分类场景节点依赖和自定义节点依赖。

节点名称

选择的依赖节点的名称。

生成方式

依赖节点生成方式。

  • 手动新建:用户手动新建选择。

  • 自动解析:系统自动解析生成。

下游依赖节点

展示依赖当前节点的其他节点信息。无需配置。

  • 节点名称:即把当前节点作为上游依赖节点的下游节点名称。

  • 所属工作区:当前节点作为依赖节点的下游节点的所属工作区。

  • 节点来源:当前节点作为依赖节点的下游节点的节点来源。

  • 场景标识:当前节点作为依赖节点的下游节点所属场景的场景标识

手动设置血缘

用于配置表资产中的字段映射关系。

完成输入和输出参数配置后,单击手动设置血缘开关,在血缘配置对话框中,单击输出表待配置的目标字段后的14图标,下拉选择对应的一个或者多个输入表以及输入表的字段。

说明

  • 对能自动解析输入和输出参数的SQL类节点类型,系统会自动匹配输入表和输出表的字段映射关系,同时也支持手动配置。

  • 配置完字段血缘关系并运行上线生产节点后,可至资产中心查看该节点输出表和输入表的字段映射关系,具体操作,请参见查看表资产详情的血缘关联介绍。

其他参数

节点类型

配置项

说明

Blink运行时参数

智能CU配置

节点运行的所有资源的配置,例如:CPU、MEM、并发数等。

智能内存配置(GB)

节点运行的所需内存的配置。

节点类型

参数

说明

Elastic Service

Elastic运行时参数

初始化时间

代码启动初始化所需要的时间。

超时配置(秒

服务启动的超时时间。

实例副本数

实例上的程序数。

单实例CPU核数

实例运行的CPU核数。

单实例内存上限(MB

单实例运行的内存限制。

服务网络类型

是否对外网络服务的。

"有状态"部署

是否持久化程序数据。

运行环境

代码容器使用的镜像,其中自定义镜像只能在Elastic 控制台中创建。

Spark SQL

Spark运行时参数

executor内存(GB)

executor所需内存。

driver内存(GB)

driver所需内存。

executor核数

单个spark任务executor进程使用的cpu核数。

executor数量

单个spark任务executor进程使用的cpu线程数。

yarn队列

yarn模式下的队列名。

spark镜像

spark on kubernetes模式需提供的镜像地址,格式<imageRepo>:<tag>。

作业参数

节点运行的额外参数。

Flink SQL

Flink运行时参数

Job并行度

全局级别Job默认并行度,对应flink-conf.yaml中 parallelism.default。

JobManager的Cpu数

单个flink任务jobmanager使用的cpu核数。

JobManager容器内存(MB)

单个flink任务jobmanager使用的进程内存,对应flink-conf.yaml中 jobmanager.memory.process.size。

TaskManager的Cpu数

单个flink任务taskmanager使用的cpu核数。

TaskManager容器内存(MB)

单个flink任务taskmanager使用的进程内存,对应flink-conf.yaml中 jobmanager.memory.process.size。

单个TaskManager的Slots数

单个taskmanager可以提供的slot数,对应flink-conf.yaml中taskmanager.numberOfTaskSlots,通常配置与cpu核数相等。

yarn队列

link on yarn模式任务提交的队列,不填则默认default。

YARN应用名

flink on yarn 模式任务名称。

Flink镜像

flink on k8s 模式使用的镜像,格式为 <imageRepo> :<tag>。

Flink版本

Flink 镜像中的Flink版本,如:V1_13、V1_14、V1_15、V1_16。

启用Savepoint

flink 任务运行时是否启用保存。

作业参数

Flink任务配置参数,对应flink-conf.yaml参数。示例:

pipeline.name=test。