为保证您可以顺利完成本次实验,请您首先确保云账号已开通E-MapReduce(简称为EMR)、数据工场DataWorks和数据存储OSS。

前提条件

背景信息

本次实验涉及的阿里云产品如下:

操作步骤

  1. 创建EMR集群。
    1. 登录E-MapReduce控制台
    2. 选择华东2(上海)区域,单击创建集群
      说明
      • 由于源数据存储在华东2(上海),建议EMR集群创建在相同的区域。
      • 您可以通过一键购买自定义购买两种方式创建EMR集群,本文以自定义购买为例。
    3. 自定义购买 > 软件配置对话框中,选择集群类型Hadoop,其它配置项默认无需修改。单击下一步:硬件配置
    4. 硬件配置对话框中,选择付费类型按量付费,并进行网络配置实例配置,单击下一步:基础配置
    5. 基础配置对话框中,输入集群名称,并选择密钥对,单击下一步:确定
      EMR默认选项不开启挂载公网,创建集群后只能通过内网访问EMR集群。本次实验的Workshop操作中不涉及挂载公网,直接单击挂载公网说明对话框中的继续下一步即可。如果您需要公网访问,请进入ECS控制台挂载EIP。
    6. 确认对话框中,确认订单无误后,勾选《E-MapReduce服务条款》,单击创建
  2. 初始化集群。
    购买成功后,即可进入集群管理页面进行查看,集群初始化需要几分钟的时间。
    1. 集群初始化成功后,单击顶部菜单栏中的数据开发
    2. 数据开发页面,单击新建项目
    3. 新建项目对话框中,输入项目名称项目描述
      说明 请使用主账号创建项目,该项目用于关联DataWorks工作空间。
    4. 单击创建
  3. 创建DataWorks工作空间。
    说明 因本实验提供的数据资源都在华东2,建议您将工作空间创建在华东2,以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
    1. 鼠标悬停至EMR控制台左上角的图标,单击DataWorks
    2. 单击控制台概览 > 常用功能下的创建工作空间
      您也可以进入工作空间列表页面,单击创建工作空间
      说明工作空间列表页面创建工作空间时,需要提前选择区域,在创建工作空间对话框中不会显示选择region
    3. 填写创建工作空间对话框中的基本配置,单击下一步
      说明 本教程以简单模式的工作空间为例进行操作。
    4. 进入选择引擎界面,选择E-MapReduce引擎后,单击下一步

      DataWorks已正式商用,如果该区域没有开通,需要首先开通正式商用的服务。默认选中数据集成数据开发运维中心数据质量

    5. 进入引擎详情页面,填写选购引擎的配置。
      引擎 参数 描述
      E-MapReduce 实例名称 输入创建的EMR集群的名称。
      Access IDAccess Key 已经授权可以访问EMR集群的账号的访问密钥。
      EmrClusterID 创建的EMR集群ID。
      EmrUserID 进入E-MapReduce控制台,单击顶部菜单栏中的集群管理

      集群管理页面,单击相应集群后的管理

      单击左侧导航栏中的用户管理,即可查看所用密钥的用户ID。

      EmrProjectID 进入E-MapReduce控制台,单击数据开发,即可查看新建项目的ID。
      EmrResource QueueName 默认为default
      EmrEndpoint 输入emr.aliyuncs.com
    6. 配置完成后,单击创建工作空间
  4. 购买OSS并创建Bucket。
    1. 登录OSS产品详情页,单击立即开通
    2. 在购买页面选择相应的配置后,单击立即购买
    3. 开通成功后,单击OSS产品详情页的管理控制台,直接进入OSS控制台页面。
    4. 如果目前Bucket列表为空,单击左侧存储空间列表中的创建Bucket。如果已经创建过Bucket,则单击左侧存储空间列表中的+图标,或单击页面右侧Bucket管理下的创建Bucket
    5. 创建Bucket对话框中,填写相关配置,单击确定
      说明 此处需要选择区域华东2(上海)
    6. 进入Bucket中的文件管理页面,单击新建目录
    7. 新建目录对话框中,输入目录名,单击确定
      说明 此处需要新建3个目录,分别存放同步过来的外部OSS数据源、RDS数据源和JAR资源。