DataWorks提供ODPS Spark节点类型,本文以JAR类型的资源为例,为您介绍如何新建和配置ODPS Spark节点。

创建JAR资源

  1. 进入数据开发页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  2. 鼠标悬停至新建图标,单击MaxCompute > 资源 > JAR
    您也可以找到相应的业务流程,右键单击MaxCompute,选择新建 > 资源 > JAR
  3. 新建资源对话框中,输入资源名称,并选择目标文件夹
    说明
    • 如果绑定多个实例,则需要选择MaxCompute引擎实例
    • 如果该JAR包已经在MaxCompute(ODPS)客户端上传过,则需要取消勾选上传为ODPS资源,否则上传会报错。
    • 资源名称无需与上传的文件名保持一致。
    • 资源名称命名规范:1~128个字符,字母、数字、下划线、小数点,大小写不敏感,JAR资源的后缀为.jar,Python资源的后缀为.py
  4. 单击点击上传,选择相应的文件进行上传。
    WordCount的示例代码请参见WordCount
  5. 单击确定
  6. 单击工具栏中的提交图标,提交资源至调度开发服务器端。

创建ODPS Spark节点

  1. DataStudio(数据开发)页面,鼠标悬停至新建图标,单击MaxCompute > ODPS Spark
    您也可以打开相应的业务流程,右键单击MaxCompute,选择新建 > ODPS Spark
  2. 新建节点对话框中,输入节点名称,并选择目标文件夹
    说明 节点名称必须是大小写字母、中文、数字、下划线(_)和小数点(.),且不能超过128个字符。
  3. 单击提交
  4. 在ODPS Spark编辑页面,配置各项参数。
    填写配置

    您可以根据自身需求,选择spark版本语言。选择不同的语言,会显示相应不同的配置,您可以根据界面提示进行配置。ODPS Spark的详情请参见MaxCompute Spark概述

    此处以Java/Scala语言为例。
    参数 描述
    spark版本 包括Spark1.xSpark2.x两个版本。
    语言 包括Java/ScalaPython两种语言,此处选择Java/Scala
    选择主jar资源 选择下拉列表中显示的您已上传的JAR资源。
    配置项 单击添加一条,即可配置keyvalue
    Main Class 选择类名称。
    参数 添加参数,多个参数之间用空格分隔。支持使用调度参数,调度参数使用方式请参考文档调度参数
    说明 您需要在配置调度参数后,再在编辑页面配置节点参数,系统会顺序执行。
    选择jar资源 ODPS Spark节点根据上传的文件类型自动过滤,选择下拉框中显示的您已上传的JAR资源。
    选择file资源 ODPS Spark节点根据上传的文件类型自动过滤,选择下拉框中显示的您已上传的File资源。
    选择archives资源 ODPS Spark节点根据上传的文件类型自动过滤,选择下拉框中显示的您已上传的Archives资源,仅展示压缩类型的资源。
  5. 单击节点编辑区域右侧的调度配置,配置节点的调度属性,详情请参见基础属性
  6. 提交节点。
    1. 单击工具栏中的提交图标。
    2. 提交新版本对话框中,输入备注
    3. 单击确认
    如果您使用的是标准模式的工作空间,提交成功后,请单击右上角的发布。具体操作请参见发布任务
  7. 测试节点,详情请参见周期任务