创建和使用EMR资源

DataWorks支持可视化创建EMR(E-MapReduce) JAR、EMR(E-MapReduce)FILE资源,用于上传提交自定义函数或开源MR示例源码作为资源,便于EMR 计算节点的数据开发过程中引用。本文为您介绍如何创建资源,并上传提交资源,为资源的使用做好前期准备。

前提条件

EMR引擎类型包括新版数据湖(DataLake)及Hadoop,不同类型引擎创建资源前需执行的准备工作不同。您需要根据实际情况完成EMR侧及DataWorks侧的准备工作。

创建EMR资源

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 鼠标悬停至新建图标,单击新建资源 > EMR > EMR JAR新建资源 > EMR > EMR File

    您也可以找到相应的业务流程,右键单击业务流程,选择新建资源 > EMR > EMR JAR新建资源 > EMR > EMR File

  3. 新建资源对话框中,配置各项参数。

    新建资源

    参数

    描述

    引擎类型

    默认新建EMR类型的资源,不可修改。

    引擎实例

    从下拉列表中选择需要新建资源的目标引擎实例。

    说明

    此处展示工作空间的数据开发中绑定好的EMR引擎。

    资源类型

    仅支持EMR JAR、EMR FILE类型的资源。

    路径

    为您使用的业务流程路径。

    存储路径

    为该资源选择存储的路径,包括OSSHDFS两种存储类型:

    • 如果您选择OSS,需要先授权再选择目录的位置。

      说明

      需要主账号在此处进行授权操作。

    • 如果您选择HDFS,需要手动输入存储路径。

    说明

    目前您的任务JAR包仅支持如下两种存放路径:

    • JAR包存放在EMR集群的Master机器中。

    • JAR包存放在对象存储服务(Object Storage Service,OSS)中。推荐您使用OSS进行存放。使用OSS存放JAR包,详情请参见控制台使用流程

    文件来源

    目标文件的来源,包括本地OSS两种来源。

    • 如果您选择本地,在上传文件中单击点击上传即可上传本地文件。

    • 如果您选择OSS,在选择文件下拉框中选择OSS文件,或者单击前往OSS创建即可创建OSS文件

    名称

    新建的EMR资源的名称,如果您上传的是jar资源,您需要添加后缀名.jar

  4. 新建资源对话框中,单击新建

  5. 单击工具栏中的保存提交图标,保存并提交资源至调度开发服务器端。

    说明

    提交时,您需要选择提交资源所用的调度资源组,当使用Serverless资源组提交资源时,DataWorks平台将下发对应新建资源的任务到引擎侧执行,并打印执行过程的执行日志,如果资源提交过程中出现问题,您可以通过日志先自助排查。如果您目前无可用的Serverless资源组,请购买并配置Serverless资源组便于使用,操作详情请参见新增和使用Serverless资源组

使用资源注册函数

DataWorks支持可视化方式使用资源来注册函数,当您将函数注册所需的资源通过DataWorks可视化上传后,便可通过可视化方式在函数注册时使用该资源。注册函数

节点中使用资源

创建完成EMR JAR资源后,如果您需要在节点中直接使用资源,您需要在资源文件夹选择相应的资源节点,然后右键单击该节点并选择引用资源。引用方式如下图所示。节点中使用资源

说明

节点中引用资源后,会自动添加一条@resource_reference{"resourcename},表示节点内已经引用该资源。

详细的引用操作步骤可参见创建EMR MR节点

资源版本管理

每次提交资源都将生成一个资源版本,您可以通过右键单击该资源节点,单击查看历史版本查看并下载资源。资源版本