新建Spark SQL类型公共节点并运行

Spark SQL节点是离线节点,运行于Spark类型的云计算资源之上,可通过输入SQL语句处理Spark类型的数据源。本文介绍如何新建Spark SQL类型的公共节点并运行。

前提条件

已创建Spark On Yarn或者Spark Cluster类型的云计算资源,具体信息,请参见新建云计算资源

操作步骤

  1. 登录数据资源平台控制台

  2. 在页面左上角,单击菜单图标,选择协同

  3. 在顶部菜单栏,单击选择工作组图标,选择目标工作组,单击资产加工

    说明

    若您已在资产加工页面,请跳过“单击资产加工”的操作。

  4. 在左侧导航栏,单击image图标,选择公共节点

  5. 单击image图标,在公共节点页面,单击新建节点

  6. 新建节点对话框,选择Spark SQL节点类型,单击确定

  7. 在节点编辑页面进行配置。

    1. 在页面右侧的节点属性页签,自定义填写节点标识、节点名称以及简介信息并上传算法包,填写入口类名。

      参数

      说明

      节点名称

      节点的名称,支持用户自定义。

      节点标识

      节点的唯一标识,由用户自定义,同一个工作组必须是唯一的,不可重复。

      公共节点版本

      首次创建时,默认为开发版本(Beta),待第一次发布以后,再次发布,版本号依次叠加。

      节点目录

      节点的所属归类目录。

      节点资源文件

      本地编写完成的算法文件。

      节点描述

      节点的描述性信息,方便用户理解和查找。

    2. 在节点编辑页面,单击保存图标。

    3. 确认节点信息对话框中,确认节点标识、节点名称以及节点目录信息设置无误后,单击确认

    4. 单击页面右侧运行配置页签,选择需要的开发计算引擎。

    5. (条件必选)如果代码中存在输入、输出或者节点变量,则需要手动添加节点的输入、输出和节点变量,具体参数配置参见下表。

      1. 如果节点文件和脚本中有要求输入,则打开节点输入后面的image.png开关,单击添加节点输入,添加节点输入,自定义填写输入标识并选择输入数据结构。

      2. 如果节点脚本中有要求输出变量,则打开节点输出后面的image.png开关,单击添加节点输出,添加节点输出,自定义填写输出标识,并选择输出数据结构。

      3. 如果需要设置节点的全局控制参数,单击添加参数,添加节点变量并赋值,关于全局变量的设置,更多信息,请参见新增工作组全局变量

        参数

        说明

        节点输入

        输入标识

        输入变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Input

        数据结构

        输入表的数据格式,由数据模型定义,在下拉列表中选择输入数据的逻辑表名称,表示该计算资源中提供数据的数据表的结构。

        • 当选择数据表时,需保证输入的模型与上游节点的输出数据模型相同。

        • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

        节点输出

        输出标识

        输出变量的标识,用户可根据前面编写的脚本内容来自定义,例如:Output

        数据结构

        输出表的数据格式,由数据模型定义,在下拉列表中选择,表示该计算资源中输出数据的数据表的结构。

        • 当选择数据表时,需保证节点输出的模型与下游节点的输入数据模型相同。

        • 当选择星号(*)时,代表数据结构为任意结构,用于对未创建数据模型的表进行操作。

        节点变量

        变量名

        算法变量的名称,用户自定义。

        变量

        设置变量的值,为字符串(String)类型。

        变量说明

        变量说明信息。

    6. 在节点编辑页面,单击左上角保存图标。

    7. 单击运行图标,在节点变量对话框,确认参数类型和默认值无误后,单击确定

      说明

      当解析后不存在参数,则单击运行图标后,不会弹出节点变量对话框。

    8. 查看运行结果和日志,当结果显示如下所示“Current task status:SUCCESS”,则表示公共节点运行成功。