DataWorks on EMR快速入门

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。

操作流程

  1. 步骤一:创建集群

    在EMR控制台,快速创建一个DataLake集群。更多详情,请参见创建集群

  2. 步骤二:创建工作空间

    在DataWorks控制台,快速创建一个工作空间。更多详情,请参见创建工作空间

  3. 步骤三:绑定E-MapReduce

    在DataWorks控制台,快速绑定E-MapReduce。更多详情,请参见注册EMR集群至DataWorks

  4. 步骤四:数据开发和治理

    EMR环境配置完成后,您可以在DataWorks控制台上进行EMR元数据管理、任务运维监控及数据质量监控,保证EMR数据能够正常产出。更多的信息,请参见DataWorks On EMR使用说明

步骤一:创建集群

  1. 进入创建集群页面。

    1. 登录EMR on ECS控制台

    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。

      • 地域:创建的集群会在对应的地域内,一旦创建不能修改。

      • 资源组:默认显示账号全部资源。

    3. 单击上方的创建集群

  2. 在创建集群页面,完成集群相关配置。

    配置区域

    配置项

    示例

    描述

    软件配置

    地域

    华东1(杭州)

    集群节点ECS实例所在的物理位置。

    重要

    集群创建后,无法更改地域,请谨慎选择。

    业务场景

    数据湖

    选择适合的业务场景,创建集群时阿里云EMR会自动为您配置默认的组件、服务和资源,以简化集群配置,并提供符合特定业务场景需求的集群环境。

    产品版本

    EMR-5.14.0

    当前最新的软件版本。

    服务高可用

    不开启

    默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。

    可选服务

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。

    说明

    除过集群默认的服务,还需选择Knox和OpenLDAP服务。

    允许采集服务运行日志

    开启

    支持一键开启或关闭所有服务的日志采集。默认开启,将收集您的服务运行日志,这些日志仅供集群诊断使用。

    集群创建后,您可以在基础信息页面,修改服务运行日志收集状态

    重要

    关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?

    元数据

    DLF统一元数据

    表示元数据存储在数据湖构建DLF中。

    系统会为您选择默认的DLF数据目录,如果您不同集群期望使用不同的数据目录,可以单击创建数据目录

    说明

    选择该方式时,需要开通阿里云数据湖构建服务。

    集群存储根路径

    1366993922******

    当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。

    说明
    • 在选择使用OSS-HDFS服务之前,请确保您选择的地域支持该服务。否则,您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息,请参见开通并授权访问OSS-HDFS服务

    • EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,支持选择OSS-HDFS服务。

    硬件配置

    付费类型

    按量付费

    在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。

    可用区

    可用区 I

    集群创建后,无法直接更改可用区,请谨慎选择。

    专有网络

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。

    交换机

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。

    默认安全组

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上创建的企业安全组。

    如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。

    节点组

    打开Master节点组下的挂载公网开关,其余使用默认值即可。

    您可以根据业务诉求,配置Master节点组、Core节点组或Task节点组信息。详情请参见选型配置说明

    基础配置

    集群名称

    Emr-DataLake

    集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。

    身份凭证

    密码。

    用于远程登录集群的Master节点。

    登录密码确认密码

    自定义密码。

    请记录该配置,登录集群时您需要输入该密码。

  3. 选中服务协议,单击确认订单

    在EMR on ECS页面,当集群状态显示为运行中时,表示集群创建成功。更多集群参数信息,请参见创建集群

步骤二:创建工作空间

  1. 登录DataWorks控制台

  2. 单击创建工作空间

  3. 配置工作空间基本信息。

    配置项

    示例

    描述

    工作空间名称

    emr_dataworks

    工作空间名称的长度需要在3~23个字符,以字母开头,且只能包含字母、下划线(_)和数字。

    生产、开发环境隔离

    定义工作空间模式。

    • 是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。

    • 否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。

  4. 单击提交,工作空间创建完成。

步骤三:绑定E-MapReduce

在DataWorks上使用EMR的详细开发流程,可以参见DataWorks On EMR使用说明

  1. 工作空间创建完后,在创建工作空间面板中,单击E-MapReduce区域的立即绑定

  2. 绑定E-MapReduce页面,单击绑定并进入下一步

  3. 在开源集群页面,单击注册集群

  4. 注册E-MapReduce集群页面,配置相关参数,单击完成注册

    参数

    示例

    描述

    集群显示名称

    dataworks_test

    定义集群在DataWorks中的名称,名称必须唯一。

    集群所属云账号

    当前阿里云主账号

    选择需要将哪个账号下的EMR集群注册至当前工作空间。

    集群类型

    数据湖(DataLake)

    选择需要绑定的EMR集群类型。

    集群

    Emr-DataLake

    选择需要绑定在DataWorks上运行任务的EMR集群。

    默认访问身份

    集群账号:hadoop

    定义在当前工作空间下,使用什么身份访问该EMR集群。

  5. EMR集群页面,单击资源组初始化

    可以对需要使用的资源组进行初始化,验证独享调度资源组和EMR引擎的网络连通性。

    说明
    • DataWorks仅支持使用独享调度资源组运行EMR任务,所以此处仅支持选择独享调度资源组进行资源组初始化操作。

    • 资源组初始化可能导致正在运行的任务失败。非必要场景(例如,集群配置变更,需要立即重新初始化资源组,否则会导致大量任务运行失败),建议在业务低峰期对资源组执行初始化操作。

步骤四:数据开发和治理

操作

描述

文档

数据开发

您可以根据业务需要,选择合适的节点类型进行EMR任务开发。

元数据管理

数据地图通过元数据采集方式管理EMR元数据。您可以在数据地图中查看EMR表元数据、产出信息和血缘等功能。

数据地图

数据质量监控

数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。

说明

DataLake和自定义类型集群配置质量规则时,您需选择dqc_emr_plugin_datalake插件。

任务运维监控

智能监控提供调度任务执行状态的监控能力,您可以通过配置智能监控规则实现任务运行状态的监控。