文档

新建Spark Stream类型的公共节点

更新时间:

Spark Stream节点是流式节点,运行于Spark云计算资源之上,支持对RDS MySQL、Table Store、Hive、Kafka、Hbase、Phoenix、AnalyticDB MySQL、AnalyticDB_PostgreSQL和DataHub等类型的数据进行处理。本文介绍如何新建Spark Stream类型的公共节点。

背景信息

Spark Stream节点是适用于在Hadoop+yarn集群上运行的Spark节点。

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,单击菜单图标,选择协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

    说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  4. 在左侧导航栏,单击image图标,选择公共节点

  5. 单击image图标,在公共节点页面,单击新建节点

  6. 新建节点对话框,选择Spark Stream节点类型,单击确定

  7. 在节点编辑页面,配置参数。

    1. 在页面右侧的节点属性页签,自定义填写节点标识、节点名称以及简介信息。并上传算法包,填写入口类名。

      参数

      说明

      节点名称

      节点的名称。

      节点标识

      节点的唯一标识,由用户自定义,同一个工作区内不可重复。

      节点目录

      节点所属目录。

      公共节点版本

      首次创建时,默认为开发版本(Beta),待首次发布以后,版本号依次叠加,用户修改对应的算法语句后,可发布成不同的版本。

      节点描述

      节点的描述性信息,方便理解和查找。

      节点附件

      上传JAR包格式的节点资源文件。

      入口类名

      Java函数入口类名,用来作为程序入口的运行函数。

    2. 在编辑页面,单击保存图标。

    3. 确认节点信息对话框中,确认节点标识、节点名称以及节点目录信息设置无误后,单击确认

    4. 单击页面右侧运行属性页签,输入开发计算引擎。

    5. (条件必选)如果代码中存在输入、输出或者节点变量,则需要手动添加节点的输入、输出和节点变量,具体参数配置参见下表。

      1. 如果节点文件和脚本中有要求输入,则打开节点输入后面的image.png开关,单击添加节点输入,添加节点输入,自定义填写输入标识并选择输入数据结构。

      2. 如果节点脚本中有要求输出变量,则打开节点输出后面的image.png开关,单击添加节点输出,添加节点输出,自定义填写输出标识,并选择输出数据结构。

      3. 如果需要设置节点的全局控制参数,单击添加参数,添加节点变量并赋值,关于全局变量的设置,更多信息,请参见新增工作组全局变量

        参数

        说明

        节点输入

        输入标识

        输入变量的标识,系统默认配置,用户可根据前面编写的脚本内容来自定义,例如:Input

        数据结构

        输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据的数据表的结构。

        • 当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。

        • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

        节点输出

        输出标识

        输出变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Output

        数据结构

        输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。

        • 当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同。

        • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

        节点变量

        变量名

        算法的名称,用户自定义。

        变量值

        变量的值。

        变量说明

        变量的说明信息。

    6. 配置Spark运行时参数。

    7. 完成上述参数配置后,单击保存图标,创建节点完成。