创建并管理MaxCompute节点

DataWorks为您提供多种MaxCompute节点,便于您根据需要开发不同类型的MaxCompute任务,并为您提供丰富的节点调度配置,帮助您灵活设置MaxCompute任务的调度,本文为您介绍创建并管理MaxCompute节点的通用操作指导。

前提条件

  • 已创建业务流程。

    数据开发(DataStudio)基于业务流程对不同开发引擎进行具体开发操作,所以您创建节点前需要先新建业务流程,操作详情请参见创建业务流程

  • 已创建MaxCompute数据源并绑定至数据开发(DataStudio)。

    创建MaxCompute相关节点并开发MaxCompute任务前,您需先将MaxCompute项目创建为DataWorks工作空间的MaxCompute数据源,并绑定至数据开发(DataStudio),作为开发MaxCompute任务的底层引擎。操作详情请参见创建MaxCompute数据源开发前准备:绑定数据源或集群

  • 进行MaxCompute对应任务开发的账号已被添加至对应工作空间中,并具有开发空间管理员(权限较大,谨慎添加)角色权限,添加成员的操作详情请参见为工作空间添加空间成员

创建MaxCompute节点

  1. 进入数据开发页面。

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 以ODPS SQL节点为例,为您介绍创建节点的操作。

    image.png

    1. 右键某个业务流程,选择新建节点 > MaxCompute > ODPS SQL

      说明

      您也可以单击顶部新建按钮,根据界面提示选择创建MaxCompute节点。

    2. 在弹框中配置节点的名称,完成后单击确认,完成MaxCompute节点创建操作,后续您即可在节点中进行对应MaxCompute任务开发与配置。

开发MaxCompute任务

当前DataWorks支持多种MaxCompute节点类型,便于您开发不同类型的MaxCompute任务。

节点类型

适用的场景

任务开发指导

ODPS SQL

开发MaxCompute的SQL任务。

开发ODPS SQL任务

SQL组件节点

开发MaxCompute的SQL任务。

在实际业务实践中,存在大量类似的SQL代码过程,过程中输入表和输出表的结构一致或结构类型兼容,仅名称不同。此时,组件的开发者可将该SQL过程抽象为一个SQL组件节点,将可变的输入表抽象为输入参数,可变的输出表抽象为输出参数,实现SQL代码的复用。

SQL组件概述

PyODPS 3

开发MaxCompute的PyODPS任务,PyODPS 3节点底层Python语言版本为Python 3。

开发PyODPS 3任务

PyODPS 2

开发MaxCompute的PyODPS任务,PyODPS 2节点底层Python语言版本为Python 2。

开发PyODPS 2任务

ODPS Spark

开发MaxCompute的Spark任务。

开发ODPS Spark任务

ODPS Script

开发MaxCompute的SQL脚本类的任务。

开发ODPS Script任务

ODPS MR

开发MaxCompute的MapReduce任务。

开发ODPS MR任务

开发MaxCompute任务:能力增强

除上述通用的MaxCompute任务开发能力外,DataWorks还为您提供表、资源、函数的能力支持,便于您高效开展MaxCompute任务开发工作。

  • MaxCompute表能力:支持在DataWorks上通过界面化的操作,快捷创建表、查看表信息、管理表等,详情请参见创建并使用MaxCompute表表管理

  • MaxCompute函数与资源能力:

    • 在DataWorks上开发MaxCompute任务时,支持直接使用MaxCompute的内置函数,当前MaxCompute内置函数列表请参见使用内建函数

    • 支持将您的自定义函数通过DataWorks创建为MaxCompute资源并注册为MaxCompute函数,供后续开发MaxCompute任务时直接调用,自定义函数的使用请参见创建并使用MaxCompute资源创建并使用自定义函数

    • 支持将本地开发的资源包通过本地上传的方式上传至DataWorks,或直接在DataWorks新建资源。

      DataWorks支持将文本文件、Python代码以及.zip.tgz.tar.gz.tar.jar等压缩包,作为不同类型的资源上传至MaxCompute,在用户自定义函数UDF及MapReduce的运行过程中读取、使用。资源的上传与使用详情请参见创建并使用MaxCompute资源

任务开发后处理

当您完成当前节点的任务开发后,通常您可进行以下操作。

  • 调度配置:配置节点的周期性调度属性。任务需要周期性调度运行时,您需要设置节点后续实际运行过程中的重跑属性、调度依赖关系等,操作详情请参见任务调度属性配置概述

  • 任务调试:对当前节点的代码进行测试运行,确认代码逻辑符合预期,操作详情请参见任务调试流程

  • 任务发布:完成所有开发相关操作后,您需要将所有任务节点进行发布,发布后节点即会根据调度配置结果进行周期性运行,操作详情请参见发布任务

节点管理

创建完成节点后,您可以对节点进行编辑、删除等操作,也可将多个节点组成节点组给其他业务流程直接引用。节点的其他管理操作请参见使用节点组