Spark SQL节点是离线节点,运行于Spark类型的云计算资源之上,可通过输入SQL语句处理Spark类型的数据源。本文介绍如何新建Spark SQL类型的公共节点并运行。
前提条件
已创建Spark On Yarn或者Spark Cluster类型的云计算资源,具体信息,请参见新建云计算资源。
操作步骤
登录数据资源平台控制台。
在页面左上角,单击图标,选择协同。
在顶部菜单栏,单击图标,选择目标工作组,单击资产加工 。
说明若您已在资产加工页面,请跳过“单击资产加工”的操作。
在左侧导航栏,单击图标,选择公共节点。
单击图标,在公共节点页面,单击新建节点。
在新建节点对话框,选择Spark SQL节点类型,单击确定。
在节点编辑页面进行配置。
在页面右侧的节点属性页签,自定义填写节点标识、节点名称以及简介信息并上传算法包,填写入口类名。
参数
说明
节点名称
节点的名称,支持用户自定义。
节点标识
节点的唯一标识,由用户自定义,同一个工作组必须是唯一的,不可重复。
公共节点版本
首次创建时,默认为开发版本(Beta),待第一次发布以后,再次发布,版本号依次叠加。
节点目录
节点的所属归类目录。
节点资源文件
本地编写完成的算法文件。
节点描述
节点的描述性信息,方便用户理解和查找。
在节点编辑页面,单击图标。
在确认节点信息对话框中,确认节点标识、节点名称以及节点目录信息设置无误后,单击确认。
单击页面右侧运行配置页签,选择需要的开发计算引擎。
(条件必选)如果代码中存在输入、输出或者节点变量,则需要手动添加节点的输入、输出和节点变量,具体参数配置参见下表。
如果节点文件和脚本中有要求输入,则打开节点输入后面的开关,单击添加节点输入,添加节点输入,自定义填写输入标识并选择输入数据结构。
如果节点脚本中有要求输出变量,则打开节点输出后面的开关,单击添加节点输出,添加节点输出,自定义填写输出标识,并选择输出数据结构。
如果需要设置节点的全局控制参数,单击添加参数,添加节点变量并赋值,关于全局变量的设置,更多信息,请参见新增工作组全局变量。
参数
说明
节点输入
输入标识
输入变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Input。
数据结构
输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据的数据表的结构。
当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。
当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。
节点输出
输出标识
输出变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Output。
数据结构
输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。
当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同。
当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。
节点变量
变量名
算法变量的名称,用户自定义。
变量值
设置变量的值,为字符串(String)类型。
变量说明
变量说明信息。
在节点编辑页面,单击左上角图标。
单击图标,在节点变量对话框,确认参数类型和默认值无误后,单击确定。
说明当解析后不存在参数,则单击运行图标后,不会弹出节点变量对话框。
查看运行结果和日志,当结果显示如下所示“Current task status:SUCCESS”,则表示公共节点运行成功。