Spark Stream节点是流式节点,运行于Spark云计算资源之上,支持对RDS MySQL、Table Store、Hive、Kafka、Hbase、Phoenix、AnalyticDB MySQL、AnalyticDB_PostgreSQL和DataHub等类型的数据进行处理。本文介绍如何新建Spark Stream类型的公共节点。
背景信息
Spark Stream节点是适用于在Hadoop+yarn集群上运行的Spark节点。
操作步骤
登录数据资源平台控制台。
在页面左上角,单击图标,选择协同。
在顶部菜单栏,单击图标,选择目标工作组,单击资产加工 。
说明若您已在资产加工页面,请跳过“单击资产加工”的操作。
在左侧导航栏,单击图标,选择公共节点。
单击图标,在公共节点页面,单击新建节点。
在新建节点对话框,选择Spark Stream节点类型,单击确定。
在节点编辑页面,配置参数。
在页面右侧的节点属性页签,自定义填写节点标识、节点名称以及简介信息。并上传算法包,填写入口类名。
参数
说明
节点名称
节点的名称。
节点标识
节点的唯一标识,由用户自定义,同一个工作区内不可重复。
节点目录
节点所属目录。
公共节点版本
首次创建时,默认为开发版本(Beta),待首次发布以后,版本号依次叠加,用户修改对应的算法语句后,可发布成不同的版本。
节点描述
节点的描述性信息,方便理解和查找。
节点附件
上传JAR包格式的节点资源文件。
入口类名
Java函数入口类名,用来作为程序入口的运行函数。
在编辑页面,单击图标。
在确认节点信息对话框中,确认节点标识、节点名称以及节点目录信息设置无误后,单击确认。
单击页面右侧运行属性页签,输入开发计算引擎。
(条件必选)如果代码中存在输入、输出或者节点变量,则需要手动添加节点的输入、输出和节点变量,具体参数配置参见下表。
如果节点文件和脚本中有要求输入,则打开节点输入后面的开关,单击添加节点输入,添加节点输入,自定义填写输入标识并选择输入数据结构。
如果节点脚本中有要求输出变量,则打开节点输出后面的开关,单击添加节点输出,添加节点输出,自定义填写输出标识,并选择输出数据结构。
如果需要设置节点的全局控制参数,单击添加参数,添加节点变量并赋值,关于全局变量的设置,更多信息,请参见新增工作组全局变量。
参数
说明
节点输入
输入标识
输入变量的标识,系统默认配置,用户可根据前面编写的脚本内容来自定义,例如:Input。
数据结构
输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据的数据表的结构。
当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。
当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。
节点输出
输出标识
输出变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Output。
数据结构
输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。
当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同。
当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。
节点变量
变量名
算法的名称,用户自定义。
变量值
变量的值。
变量说明
变量的说明信息。
配置Spark运行时参数。
完成上述参数配置后,单击图标,创建节点完成。