DataWorks on EMR快速入门_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点，实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能，为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。

操作流程

步骤一：创建集群
在EMR控制台，快速创建一个DataLake集群。更多详情，请参见创建集群。
步骤二：创建工作空间
在DataWorks控制台，快速创建一个工作空间。更多详情，请参见创建工作空间。
步骤三：绑定E-MapReduce
在DataWorks控制台，快速绑定E-MapReduce。更多详情，请参见注册EMR集群至DataWorks。
步骤四：数据开发和治理
EMR环境配置完成后，您可以在DataWorks控制台上进行EMR元数据管理、任务运维监控及数据质量监控，保证EMR数据能够正常产出。更多的信息，请参见DataWorks On EMR使用说明。

步骤一：创建集群

进入创建集群页面。
1. 登录EMR on ECS控制台。
2. 在顶部菜单栏处，根据实际情况选择地域和资源组。
  - 地域：创建的集群会在对应的地域内，一旦创建不能修改。
  - 资源组：默认显示账号全部资源。
3. 单击上方的创建集群。

在创建集群页面，完成集群相关配置。

配置区域	配置项	示例	描述
软件配置	地域	华东1（杭州）	集群节点ECS实例所在的物理位置。重要集群创建后，无法更改地域，请谨慎选择。
	业务场景	数据湖	选择适合的业务场景，创建集群时阿里云EMR会自动为您配置默认的组件、服务和资源，以简化集群配置，并提供符合特定业务场景需求的集群环境。
	产品版本	EMR-5.14.0	当前最新的软件版本。
	服务高可用	不开启	默认不开启。打开服务高可用开关后，EMR会把Master节点分布在不同的底层硬件上以降低故障风险。
	可选服务	HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。	根据您的实际需求选择组件，被选中的组件会默认启动相关的服务进程。说明除过集群默认的服务，还需选择Knox和OpenLDAP服务。
	允许采集服务运行日志	开启	支持一键开启或关闭所有服务的日志采集。默认开启，将收集您的服务运行日志，这些日志仅供集群诊断使用。集群创建后，您可以在基础信息页面，修改服务运行日志收集状态。重要关闭日志采集后，EMR的健康检查和技术支持将受到限制，但其他功能仍可正常使用。如何关闭及影响详情，请参见如何停止采集服务日志？。
	元数据	DLF统一元数据	表示元数据存储在数据湖构建DLF中。系统会为您选择默认的DLF数据目录，如果您不同集群期望使用不同的数据目录，可以单击创建数据目录。说明选择该方式时，需要开通阿里云数据湖构建服务。
	集群存储根路径	1366993922******	当您在可选服务区域选择了OSS-HDFS服务时，需要配置该参数，如果选择的是HDFS服务，则无需配置该参数。说明在选择使用OSS-HDFS服务之前，请确保您选择的地域支持该服务。否则，您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息，请参见开通并授权访问OSS-HDFS服务。 EMR-5.12.1及后续版本，EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群，支持选择OSS-HDFS服务。
硬件配置	付费类型	按量付费	在测试场景下，建议使用按量付费，测试正常后可以释放该集群，再新建一个包年包月的生产集群正式使用。
	可用区	可用区 I	集群创建后，无法直接更改可用区，请谨慎选择。
	专有网络	vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****	选择对应区域下的专有网络。如果没有，单击创建VPC前往新建。创建专有网络完成后，单击刷新，可以选择刚创建好的VPC。
	交换机	vsw_i/vsw-bp1e2f5fhaplp0g6p****	选择在对应专有网络下可用区的交换机，如果在这个可用区没有可用的交换机，则需要新创建一个。
	默认安全组	sg_seurity/sg-bp1ddw7sm2risw****	重要禁止使用ECS上创建的企业安全组。如果已有在使用的安全组，则可以直接选择使用。您也可以新建一个安全组。
	节点组	打开Master节点组下的挂载公网开关，其余使用默认值即可。	您可以根据业务诉求，配置Master节点组、Core节点组或Task节点组信息。详情请参见选型配置说明。
基础配置	集群名称	Emr-DataLake	集群的名字，长度限制为1~64个字符，仅可使用中文、字母、数字、短划线（-）和下划线（_）。
	身份凭证	密码。	用于远程登录集群的Master节点。
	登录密码和确认密码	自定义密码。	请记录该配置，登录集群时您需要输入该密码。

选中服务协议，单击确认订单。
在EMR on ECS页面，当集群状态显示为运行中时，表示集群创建成功。更多集群参数信息，请参见创建集群。

步骤二：创建工作空间

登录DataWorks控制台。
单击创建工作空间。

配置工作空间基本信息。

配置项

示例

描述

工作空间名称

emr_dataworks

工作空间名称的长度需要在3~23个字符，以字母开头，且只能包含字母、下划线（_）和数字。

生产、开发环境隔离

否

定义工作空间模式。

是：需隔离生产、开发环境，该方式创建的工作空间为标准模式工作空间。
否：无需隔离生产、开发环境，该方式创建的工作空间为简单模式工作空间。

单击提交，工作空间创建完成。

步骤三：绑定E-MapReduce

在DataWorks上使用EMR的详细开发流程，可以参见DataWorks On EMR使用说明。

工作空间创建完后，在创建工作空间面板中，单击E-MapReduce区域的立即绑定。
在绑定E-MapReduce页面，单击绑定并进入下一步。
在开源集群页面，单击注册集群。

在注册E-MapReduce集群页面，配置相关参数，单击完成注册。

参数	示例	描述
集群显示名称	dataworks_test	定义集群在DataWorks中的名称，名称必须唯一。
集群所属云账号	当前阿里云主账号	选择需要将哪个账号下的EMR集群注册至当前工作空间。
集群类型	数据湖（DataLake）	选择需要绑定的EMR集群类型。
集群	Emr-DataLake	选择需要绑定在DataWorks上运行任务的EMR集群。
默认访问身份	集群账号：hadoop	定义在当前工作空间下，使用什么身份访问该EMR集群。

在EMR集群页面，单击资源组初始化。
可以对需要使用的资源组进行初始化，验证独享调度资源组和EMR引擎的网络连通性。
说明
- DataWorks仅支持使用独享调度资源组运行EMR任务，所以此处仅支持选择独享调度资源组进行资源组初始化操作。
- 资源组初始化可能导致正在运行的任务失败。非必要场景（例如，集群配置变更，需要立即重新初始化资源组，否则会导致大量任务运行失败），建议在业务低峰期对资源组执行初始化操作。

步骤四：数据开发和治理

操作	描述	文档
数据开发	您可以根据业务需要，选择合适的节点类型进行EMR任务开发。	数据开发概述 EMR任务开发
元数据管理	数据地图通过元数据采集方式管理EMR元数据。您可以在数据地图中查看EMR表元数据、产出信息和血缘等功能。	数据地图
数据质量监控	数据质量提供对调度任务产出的表数据的质量监控能力，您可以通过配置表的质量监控规则实现对表数据的监控。说明 DataLake和自定义类型集群配置质量规则时，您需选择dqc_emr_plugin_datalake插件。	数据质量概述规则配置
任务运维监控	智能监控提供调度任务执行状态的监控能力，您可以通过配置智能监控规则实现任务运行状态的监控。	智能监控概述规则管理