为保证您可以顺利完成本次教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。

前提条件

操作流程

执行本次实验,您需要完成如下环境准备操作:
  1. 创建并配置EMR集群

    EMR的DataLake(新版数据湖)集群提供了更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。此次实验您需要创建EMR的DataLake类型集群,并完成DataWorks On EMR开发任务所需的DataLake集群配置。详情请参见创建EMR集群

  2. 创建DataWorks工作空间

    工作空间为DataWorks支持的最大业务划分粒度,执行本实验前您需要先创建DataWorks工作空间。详情请参见创建DataWorks工作空间

  3. 配置DataWorks on EMR开发环境
    在DataWorks上运行EMR作业前,需要在DataWorks上进行资源组购买、添加工作空间成员、绑定EMR引擎等相关配置,确保EMR作业顺利执行。详情请参见配置DataWorks on EMR开发环境
    说明 工作空间创建完成后,您需要绑定EMR引擎后才能执行EMR任务。
  4. 创建Bucket

    创建Bucket,用于存储EMR元数据和运行EMR任务所需的IAR资源。详情请参见创建Bucket

创建EMR集群

说明 对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践
创建EMR集群。
  1. 登录E-MapReduce新版控制台
  2. 选择华东2(上海)地域,单击创建集群
    说明
    • 由于源数据存储在华东2(上海),建议EMR集群创建在相同的区域。
    • 您可以通过一键购买自定义购买两种方式创建EMR集群,本文以自定义购买为例。
  3. 选择DataLake集群。
    1. 自定义购买 > 软件配置对话框中,选择集群类型DataLake,其它配置项默认无需修改。
    2. 单击下一步:基础配置
  4. 集群硬件配置。
    1. 硬件配置对话框中,选择付费类型按量付费,并进行网络配置实例配置
    2. 单击下一步:基础配置
  5. 集群基础配置。
    1. 基础配置对话框中,输入集群名称,并选择密钥对
    2. 单击下一步:确定
    EMR默认选项不开启挂载公网,创建集群后只能通过内网访问EMR集群。本次实验的Workshop操作中不涉及挂载公网,直接单击挂载公网说明对话框中的继续下一步即可。如果您需要公网访问,请进入ECS控制台挂载EIP。
  6. 确认对话框中,确认订单无误后,勾选《E-MapReduce服务条款》,单击创建
    更多创建集群的详细操作步骤和相关配置,请参见创建集群

创建DataWorks工作空间

说明 因本实验提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。
  1. 登录DataWorks控制台
  2. 单击左侧导航栏的工作空间列表
  3. 选择工作空间所在地域后,单击创建工作空间
  4. 配置工作空间信息。
    1. 配置基本信息。
      分类 参数 描述
      基本信息 工作空间名称 工作空间的名称。
      显示名 工作空间在控制台的显示名称。
      模式 DataWorks的工作空间分为简单模式标准模式
      • 简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。
      • 标准模式:指一个DataWorks工作空间对应两个引擎项目,可以设置开发和生产两种环境,提升代码开发规范,并能够对表权限进行严格控制,禁止随意操作生产环境的表,保证生产表的数据安全。

      详情请参见简单模式和标准模式的区别

      描述 工作空间的描述信息。
      高级设置 能下载select结果 控制数据开发中查询的数据结果是否能够下载,关闭后则无法下载select的数据查询结果。
      说明 此参数在工作空间创建完成后可以在工作空间配置页面进行修改,详情可参考文档:安全设置
    2. 单击下一步直至引擎详情页。
    3. 引擎详情页单击创建工作空间,成功创建工作空间。

配置DataWorks on EMR开发环境

在DataWorks上运行EMR作业前,您需要配置如下开发环境。
产品 配置说明 参考链接
EMR侧 在DataWorks运行EMR(E-MapReduce)作业前,为避免作业运行出错,您需要先检查EMR的DataLake(新版数据湖)集群关于鉴权等关键配置是否满足要求。 DataLake集群配置
DataWorks侧
  • 资源组:您需要购买一个独享调度资源组,并与当前EMR集群所在的VPC网络连通。
  • 添加工作空间成员并授权:需要将目标用户添加为工作空间成员后,才可在DataStudio内正常运行EMR任务。
  • 绑定引擎:绑定DataLake集群为DataWorks运行EMR任务的引擎。
DataWorks配置

创建Bucket

  1. 登录OSS控制台
  2. 在左侧导航栏,单击Bucket列表
  3. Bucket列表页面,单击创建Bucket
  4. 创建Bucket对话框中,配置各项参数,单击确定
    说明 此处需要选择区域华东2(上海),更多参数说明请参见创建存储空间
  5. 单击相应的Bucket名称,进入Bucket的文件管理页面。
  6. 新建目录对话框中,输入目录名,单击确定
    说明 此处需要新建三个目录,分别存放同步过来的外部OSS数据源、RDS数据源和JAR资源。