DataWorks on EMR平台支持创建Hive、Spark、Spark SQL、Presto、Impala和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。
操作流程
步骤一:创建DataLake或自定义集群
在EMR控制台上创建DataLake集群(推荐)或自定义集群,详情请参见创建集群。本文以DataLake集群为例介绍。
- 进入创建集群页面。
- 在创建集群页面,完成集群相关配置。
配置区域 配置项 示例 描述 软件配置 地域 华东1(杭州) 集群节点ECS实例所在的物理位置。 重要 集群创建后,无法更改地域,请谨慎选择。业务场景 新版数据湖 默认为新版数据湖。 产品版本 EMR-5.8.0 当前最新的软件版本。 服务高可用 不开启。 默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。 可选服务 HDFS、YARN、Hive、Spark3和TEZ。 根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。 硬件配置 付费类型 按量付费 在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。 可用区 可用区 I 集群创建后,无法直接更改可用区,请谨慎选择。 专有网络 vpc_Hangzhou/vpc-bp1f4epmkvncimpgs**** 选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。 交换机 vsw_i/vsw-bp1e2f5fhaplp0g6p**** 选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。 默认安全组 sg_seurity/sg-bp1ddw7sm2risw**** 如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。重要 禁止使用ECS上创建的企业安全组。节点组 使用默认值。 根据业务诉求,配置Master实例、Core实例和Task实例信息。详情请参见选型配置说明。 基础配置 集群名称 Emr-DataLake 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。 身份凭证 密码。 用于远程登录集群的Master节点。 登录密码和确认密码 自定义密码。 请记录该配置,登录集群时您需要输入该密码。 - 选中服务协议,单击确认订单。当集群状态显示为运行中时,表示集群创建成功。
步骤二:创建DataWorks工作空间
在DataWorks控制台上创建工作空间,详情请参见创建工作空间。
- 登录DataWorks控制台。
- 单击创建工作空间。
- 配置工作空间基本信息。
配置项 示例 描述 工作空间名称 emr_dataworks 工作空间名称的长度需要在3~23个字符,以字母开头,且只能包含字母、下划线(_)和数字。 生产、开发环境隔离 否 定义工作空间模式。 - 需隔离生产、开发环境,则创建的为标准模式的工作空间。
- 无需隔离生产、开发环境,则创建的为简单模式的工作空间。
- 单击提交,工作空间创建完成。
步骤三:绑定EMR集群
在DataWorks控制台上绑定EMR集群,详情请参见DataWorks配置。
- 在DataWorks控制台上的工作空间列表页面,单击已创建工作空间操作列的数据开发。
- 在数据开发页面,单击右上方的
图标。
- 在配置页面的计算引擎信息区域,单击E-MapReduce。
- 单击增加实例。
- 在新增E-MapReduce实例对话框中,配置相关参数,单击确定。
参数 示例 描述 实例显示名称 自定义实例的名称。 E-MapReduce引擎自定义实例的名称。 访问模式 快捷模式 如果您只是简单试用,则访问模式使用默认的快捷模式即可,可以快速完成绑定,后续支持更改访问模式。 集群ID Emr-DataLake 选择需要绑定在DataWorks上运行任务的EMR集群。仅展示当前地域下的DataLake和自定义类型的集群。 YARN资源队列 default 选择当前引擎在DataWorks提交任务时默认的YARN队列。默认为default。 覆盖DataStudio任务队列映射 不勾选 用于配置任务的运行队列规则。 资源组初始化 根据实际情况选择。 - 选择与当前DataWorks工作空间网络连通的独享调度资源组。
如果您没有可用的独享调度资源组则需要新建,新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组。
- 单击初始化对资源组进行初始化,验证独享调度资源组和EMR引擎的网络连通性。您也可以选择多个资源组,批量进行初始化。说明 当EMR引擎配置或组件版本变更时,需要在此界面重新对资源组进行初始化操作。
- 选择与当前DataWorks工作空间网络连通的独享调度资源组。
步骤四:数据开发和治理
EMR环境配置完成后,您可以在DataWorks控制台上进行EMR元数据管理、任务运维监控及数据质量监控,保证EMR数据能够正常产出。
操作 | 描述 | 文档 |
---|---|---|
数据开发 | 您可以根据业务需要,选择合适的节点类型进行EMR任务开发。 说明 目前支持创建EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR Shell、EMR Presto、EMR Impala、EMR Spark Streaming等8种类型的节点。 | |
元数据管理 | 数据地图通过元数据采集方式管理EMR元数据。您可以在数据地图中查看EMR表元数据、产出信息和血缘等功能。 | |
数据质量监控 | 数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。 说明 DataLake和自定义类型集群配置质量规则时,您需选择dqc_emr_plugin_datalake插件。 | |
任务运维监控 | 智能监控提供调度任务执行状态的监控能力,您可以通过配置智能监控规则实现任务运行状态的监控。 |
DataWorks On EMR更多的信息,请参见DataWorks On EMR开发流程(必读)。