绑定EMR项目至DataWorks工作空间

说明 绑定前,需要获取EMR的相关信息。
  1. 登录DataWorks控制台,单击相应工作空间后的工作空间配置
  2. 单击工作空间配置对话框中的更多设置,即可进入工作空间配置页面。
    工作空间配置
    您也可以进入数据开发页面,单击右上角的工作空间管理,进入工作空间配置页面。
    工作空间管理
  3. 单击计算引擎信息下的E-MapReduce,即可查看当前工作空间下,所有E-MapReduc计算引擎的信息。
    EMR
    单击增加实例,填写新增EMR集群对话框中的配置,单击确定,即可新增E-MapReduce计算引擎。
    增加实例
    配置 说明
    实例名称 自定义实例名称。
    Access ID/Access Key 已经授权可以访问EMR集群的账号的密钥。
    EmrClusterID EMR集群的ID。
    EmrUserID 当前集群创建者的用户ID。
    EmrProjectID 当前集群下的项目ID。
    EmrResource QueueName 当前集群下的队列名称。如果无特殊需求,请填写default
    EmrEndpoint EMR的Endpoint,从EMR端获取。
  4. 单击确定,即可绑定成功。

    实例创建完成后,您可以将相应的计算引擎设置为默认实例,并可以进行编辑

  5. 进入数据开发页面开发EMR任务。
    说明 如果绑定失败,请检查是否出现以下问题:
    • 该EMR用户ID是否已经在其它租户绑定过。
    • 该名称是否已经被使用过。

开发EMR任务

EMR任务包括EMR_HIVE 、EMR_SPARK_SQL、EMR_SPARK和EMR_MR等任务类型。

  1. 单击左上角的图标,选择全部产品 > DataStudio(数据开发)
  2. 新建业务流程。
    1. 右键单击业务流程,选择新建业务流程
      新建业务流程
    2. 新建业务流程对话框中,填写业务流程名称描述
      新建业务流程
    3. 单击新建,即可完成业务流程的创建。
  3. 新建EMR节点。
    1. 打开新建的业务流程,右键单击数据开发,选择新建数据开发节点 > EMR HIVE
      EMR HIVE
    2. 新建节点对话框中,填写节点名称
    3. 单击提交
  4. 在编辑页面选择EMR引擎并编辑代码。
    编辑节点
  5. 提交节点任务。

    完成调度配置后,单击左上角的保存,提交(提交并解锁)到开发环境。

  6. 发布节点任务。

    具体操作请参见任务发布

  7. 在生产环境测试。

    具体操作请参见周期任务

引用资源文件

针对EMR的资源文件提供了EMR Jar和EMR File两种资源类型。

使用方法如下所示:

  • EMR_HIVE、EMR_MR资源引用的方式:首行添加--@resource_reference{"资源名称"},即可引用资源。
  • EMR_SPARK资源引用方式:首行添加##@resource_reference{"资源名称"},即可引用资源。

数据管理

DataWorks增加支持EMR元数据的查询等功能,您可以同步至数据开发中,对表进行操作。