DataWorks on EMR平台支持创建Hive、Spark、Spark SQL、Presto、Impala和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。

操作流程

  1. 步骤一:创建DataLake或自定义集群
  2. 步骤二:创建DataWorks工作空间
  3. 步骤三:绑定EMR集群
  4. 步骤四:数据开发和治理

步骤一:创建DataLake或自定义集群

在EMR控制台上创建DataLake集群(推荐)或自定义集群,详情请参见创建集群。本文以DataLake集群为例介绍。

  1. 进入创建集群页面。
    1. 登录EMR on ECS控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
      • 地域:创建的集群会在对应的地域内,一旦创建不能修改。
      • 资源组:默认显示账号全部资源。
    3. 单击上方的创建集群
  2. 在创建集群页面,完成集群相关配置。
    配置区域配置项示例描述
    软件配置地域华东1(杭州)集群节点ECS实例所在的物理位置。
    重要 集群创建后,无法更改地域,请谨慎选择。
    业务场景新版数据湖默认为新版数据湖。
    产品版本EMR-5.8.0当前最新的软件版本。
    服务高可用不开启。默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。
    可选服务HDFS、YARN、Hive、Spark3和TEZ。根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。
    硬件配置付费类型按量付费在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。
    可用区 可用区 I集群创建后,无法直接更改可用区,请谨慎选择。
    专有网络vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。
    交换机vsw_i/vsw-bp1e2f5fhaplp0g6p****选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。
    默认安全组sg_seurity/sg-bp1ddw7sm2risw****
    重要 禁止使用ECS上创建的企业安全组。
    如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。
    节点组使用默认值。根据业务诉求,配置Master实例Core实例Task实例信息。详情请参见选型配置说明
    基础配置集群名称Emr-DataLake集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
    身份凭证密码。用于远程登录集群的Master节点。
    登录密码确认密码自定义密码。请记录该配置,登录集群时您需要输入该密码。
  3. 选中服务协议,单击确认订单
    当集群状态显示为运行中时,表示集群创建成功。

步骤二:创建DataWorks工作空间

在DataWorks控制台上创建工作空间,详情请参见创建工作空间

  1. 登录DataWorks控制台
  2. 单击创建工作空间
  3. 配置工作空间基本信息。
    配置项示例描述
    工作空间名称emr_dataworks工作空间名称的长度需要在3~23个字符,以字母开头,且只能包含字母、下划线(_)和数字。
    生产、开发环境隔离定义工作空间模式。
    • 需隔离生产、开发环境,则创建的为标准模式的工作空间。
    • 无需隔离生产、开发环境,则创建的为简单模式的工作空间。
  4. 单击提交,工作空间创建完成。

步骤三:绑定EMR集群

在DataWorks控制台上绑定EMR集群,详情请参见DataWorks配置

  1. 在DataWorks控制台上的工作空间列表页面,单击已创建工作空间操作列的数据开发
  2. 数据开发页面,单击右上方的set图标。
  3. 配置页面的计算引擎信息区域,单击E-MapReduce
  4. 单击增加实例
  5. 新增E-MapReduce实例对话框中,配置相关参数,单击确定
    参数示例描述
    实例显示名称自定义实例的名称。E-MapReduce引擎自定义实例的名称。
    访问模式快捷模式如果您只是简单试用,则访问模式使用默认的快捷模式即可,可以快速完成绑定,后续支持更改访问模式。
    集群IDEmr-DataLake选择需要绑定在DataWorks上运行任务的EMR集群。仅展示当前地域下的DataLake和自定义类型的集群。
    YARN资源队列default选择当前引擎在DataWorks提交任务时默认的YARN队列。默认为default。
    覆盖DataStudio任务队列映射不勾选用于配置任务的运行队列规则。
    资源组初始化根据实际情况选择。
    1. 选择与当前DataWorks工作空间网络连通的独享调度资源组。

      如果您没有可用的独享调度资源组则需要新建,新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组

    2. 单击初始化对资源组进行初始化,验证独享调度资源组和EMR引擎的网络连通性。
      您也可以选择多个资源组,批量进行初始化。
      说明 当EMR引擎配置或组件版本变更时,需要在此界面重新对资源组进行初始化操作。

步骤四:数据开发和治理

EMR环境配置完成后,您可以在DataWorks控制台上进行EMR元数据管理、任务运维监控及数据质量监控,保证EMR数据能够正常产出。

操作描述文档
数据开发您可以根据业务需要,选择合适的节点类型进行EMR任务开发。
说明 目前支持创建EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR Shell、EMR Presto、EMR Impala、EMR Spark Streaming等8种类型的节点。
元数据管理数据地图通过元数据采集方式管理EMR元数据。您可以在数据地图中查看EMR表元数据、产出信息和血缘等功能。
数据质量监控数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。
说明 DataLake和自定义类型集群配置质量规则时,您需选择dqc_emr_plugin_datalake插件。
任务运维监控智能监控提供调度任务执行状态的监控能力,您可以通过配置智能监控规则实现任务运行状态的监控。

DataWorks On EMR更多的信息,请参见DataWorks On EMR开发流程(必读)