DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。
操作流程
在EMR控制台,快速创建一个DataLake集群。更多详情,请参见创建集群。
在DataWorks控制台,快速创建一个工作空间。更多详情,请参见创建工作空间。
在DataWorks控制台,快速绑定E-MapReduce。更多详情,请参见注册EMR集群至DataWorks。
EMR环境配置完成后,您可以在DataWorks控制台上进行EMR元数据管理、任务运维监控及数据质量监控,保证EMR数据能够正常产出。更多的信息,请参见DataWorks On EMR使用说明。
步骤一:创建集群
进入创建集群页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
地域:创建的集群会在对应的地域内,一旦创建不能修改。
资源组:默认显示账号全部资源。
单击上方的创建集群。
在创建集群页面,完成集群相关配置。
配置区域
配置项
示例
描述
软件配置
地域
华东1(杭州)
集群节点ECS实例所在的物理位置。
重要集群创建后,无法更改地域,请谨慎选择。
业务场景
数据湖
选择适合的业务场景,创建集群时阿里云EMR会自动为您配置默认的组件、服务和资源,以简化集群配置,并提供符合特定业务场景需求的集群环境。
产品版本
EMR-5.14.0
当前最新的软件版本。
服务高可用
不开启
默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。
可选服务
HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。
根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。
说明除过集群默认的服务,还需选择Knox和OpenLDAP服务。
允许采集服务运行日志
开启
支持一键开启或关闭所有服务的日志采集。默认开启,将收集您的服务运行日志,这些日志仅供集群诊断使用。
集群创建后,您可以在基础信息页面,修改服务运行日志收集状态。
重要关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?。
元数据
DLF统一元数据
表示元数据存储在数据湖构建DLF中。
系统会为您选择默认的DLF数据目录,如果您不同集群期望使用不同的数据目录,可以单击创建数据目录。
说明选择该方式时,需要开通阿里云数据湖构建服务。
集群存储根路径
1366993922******
当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。
说明在选择使用OSS-HDFS服务之前,请确保您选择的地域支持该服务。否则,您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息,请参见开通并授权访问OSS-HDFS服务。
EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,支持选择OSS-HDFS服务。
硬件配置
付费类型
按量付费
在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。
可用区
可用区 I
集群创建后,无法直接更改可用区,请谨慎选择。
专有网络
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。
交换机
vsw_i/vsw-bp1e2f5fhaplp0g6p****
选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。
默认安全组
sg_seurity/sg-bp1ddw7sm2risw****
重要禁止使用ECS上创建的企业安全组。
如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。
节点组
打开Master节点组下的挂载公网开关,其余使用默认值即可。
您可以根据业务诉求,配置Master节点组、Core节点组或Task节点组信息。详情请参见选型配置说明。
基础配置
集群名称
Emr-DataLake
集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
身份凭证
密码。
用于远程登录集群的Master节点。
登录密码和确认密码
自定义密码。
请记录该配置,登录集群时您需要输入该密码。
选中服务协议,单击确认订单。
在EMR on ECS页面,当集群状态显示为运行中时,表示集群创建成功。更多集群参数信息,请参见创建集群。
步骤二:创建工作空间
登录DataWorks控制台。
单击创建工作空间。
配置工作空间基本信息。
配置项
示例
描述
工作空间名称
emr_dataworks
工作空间名称的长度需要在3~23个字符,以字母开头,且只能包含字母、下划线(_)和数字。
生产、开发环境隔离
否
定义工作空间模式。
是:需隔离生产、开发环境,该方式创建的工作空间为标准模式工作空间。
否:无需隔离生产、开发环境,该方式创建的工作空间为简单模式工作空间。
单击提交,工作空间创建完成。
步骤三:绑定E-MapReduce
在DataWorks上使用EMR的详细开发流程,可以参见DataWorks On EMR使用说明。
工作空间创建完后,在创建工作空间面板中,单击E-MapReduce区域的立即绑定。
在绑定E-MapReduce页面,单击绑定并进入下一步。
在开源集群页面,单击注册集群。
在注册E-MapReduce集群页面,配置相关参数,单击完成注册。
参数
示例
描述
集群显示名称
dataworks_test
定义集群在DataWorks中的名称,名称必须唯一。
集群所属云账号
当前阿里云主账号
选择需要将哪个账号下的EMR集群注册至当前工作空间。
集群类型
数据湖(DataLake)
选择需要绑定的EMR集群类型。
集群
Emr-DataLake
选择需要绑定在DataWorks上运行任务的EMR集群。
默认访问身份
集群账号:hadoop
定义在当前工作空间下,使用什么身份访问该EMR集群。
在EMR集群页面,单击资源组初始化。
可以对需要使用的资源组进行初始化,验证独享调度资源组和EMR引擎的网络连通性。
说明DataWorks仅支持使用独享调度资源组运行EMR任务,所以此处仅支持选择独享调度资源组进行资源组初始化操作。
资源组初始化可能导致正在运行的任务失败。非必要场景(例如,集群配置变更,需要立即重新初始化资源组,否则会导致大量任务运行失败),建议在业务低峰期对资源组执行初始化操作。
步骤四:数据开发和治理
操作 | 描述 | 文档 |
数据开发 | 您可以根据业务需要,选择合适的节点类型进行EMR任务开发。 | |
元数据管理 | 数据地图通过元数据采集方式管理EMR元数据。您可以在数据地图中查看EMR表元数据、产出信息和血缘等功能。 | |
数据质量监控 | 数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。 说明 DataLake和自定义类型集群配置质量规则时,您需选择dqc_emr_plugin_datalake插件。 | |
任务运维监控 | 智能监控提供调度任务执行状态的监控能力,您可以通过配置智能监控规则实现任务运行状态的监控。 |