新建Spark Batch类型的公共节点

Spark Batch节点是离线节点,运行于Spark类型的云计算资源之上,可通过输入SQL语句处理Spark类型的数据源。本文介绍如何新建Spark Batch类型的公共节点。

前提条件

  • 已创建Spark On Yarn或者Spark Cluster类型的云计算资源,具体信息,请参见新建云计算资源

  • 已准备好相关节点资源文件。

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,单击菜单图标,选择协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

  4. 说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  5. 在左侧导航栏,单击image图标,选择公共节点

  6. 单击image图标,在公共节点页面,单击新建节点

  7. 新建节点对话框,选择Spark Batch节点类型,单击确定

  8. 在节点编辑页面进行配置。

    1. 在页面右侧的节点属性页签,自定义填写节点标识、节点名称以及节点描述并上传节点资源文件,填写入口类名。

      参数

      说明

      节点名称

      节点的名称,支持用户自定义。

      节点标识

      节点的唯一标识,由用户自定义,同一个工作组必须是唯一的,不可重复。

      节点类型

      Spark Batch类型。

      公共节点版本

      首次创建时,默认为开发版本(Beta),待首次发布以后,再次发布,版本号依次叠加。

      节点资源文件

      本地编写完成的算法文件。

      入口类名

      Java函数入口类名,用来作为程序入口的运行函数。

      节点描述

      节点的描述性信息,方便用户理解和查找。

    2. 在节点编辑页面,单击保存图标。

    3. 确认节点信息对话框中,确认节点标识、节点名称以及节点目录信息设置无误后,单击确认

    4. 单击页面右侧运行配置页签,选择需要的开发计算引擎。

    5. (可选)手动添加节点输入、输出参数和节点变量。

      • 如果算法文件和脚本中有要求输入变量,单击添加节点输入,添加输入参数,填写输入标识,并选择输入的云计算资源类型以及输入表。

      • 如果算法文件和脚本中有要求输出变量,单击添加节点输出,添加输出参数,填写输出标识,并选择输出的云计算资源类型以及输出表。

      • 如果需要设置算法的变量,则单击添加参数来设置即可,关于全局变量的设置,更多信息,请参见新增工作组全局变量

      各参数配置项说明如下表所示。

      配置项

      说明

      节点输入

      输入标识

      输入变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Input

      数据结构

      云计算资源类型

      在下拉列表中选择输入数据的数据源类型。

      输入数据格式

      输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据的数据表的结构。

      • 当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。

      • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

      节点输出

      输出标识

      输出变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Output

      数据结构

      云计算资源类型

      输出数据的数据源类型。

      输出数据格式

      输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。

      • 当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同。

      • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

      运行参数

      参数变量

      算法参数的名称,用户自定义。

      参数说明

      参数说明信息。

      参数值

      参数的值。

      值类型

      算法参数的值类型,目前支持的格式包括STRINGBOOLEANLONGDOUBLEDATE,您可根据实际需要选择。

    6. 在节点编辑页面,单击左上角保存图标。

    7. 单击运行图标,在SQL解析对话框,确认参数类型和默认值无误后,单击确定

      说明

      当解析后不存在参数,则单击运行图标后,不会弹出SQL解析对话框。

    8. 查看运行结果和日志,当结果显示如下所示“Current task status:SUCCESS”,则表示公共节点运行成功。