绑定E-MapReduce计算引擎
您可以在计算引擎信息界面将E-MapReduce计算引擎绑定至DataWorks作为DataWorks工作空间的引擎实例,以便通过DataWorks来执行该引擎类型的计算任务。本文为您介绍如何绑定E-MapReduce引擎。
前提条件
权限说明
目标账号已拥有DataWorks空间管理员权限,授权详情请参见添加及管理工作空间成员。
目标账号已被授予
AliyunEMRFullAccess
权限策略,以便目标账号有权限将EMR集群绑定至DataWorks,作为开发EMR任务的引擎环境。授权详情请参见用户、角色与权限概述。
资源组说明
已购买一个独享调度资源组,并给资源组绑定VPC网络,确保资源组与EMR集群间网络连通。购买并配置独享调度资源组,详情请参见新增和使用独享调度资源组。
说明在DataWorks运行EMR任务仅支持使用独享调度资源组。
注意事项
(必读)请您在操作引擎绑定前务必了解以下内容,这将决定您后续是否可以顺利开展数据开发工作。
DataWorks为您提供快捷模式和安全模式两种绑定EMR引擎的模式,快捷模式用于快速开展各类数据工作,安全模式用于实现更具安全性的数据权限管理。详情请参见配置访问方式。
说明快捷模式下,所有EMR任务统一使用Hadoop账号执行。
安全模式下,您可指定执行EMR任务所使用的账号为任务责任人所映射集群账号、阿里云主账号所映射集群账号或阿里云子账号所映射集群账号。
快捷模式与安全模式的详细对比,详情请参见快捷模式与安全模式差异比对。
使用限制
仅支持使用独享调度资源组在DataWorks运行EMR任务。
仅支持拥有
AliyunEMRFullAccess
权限策略的用户绑定引擎。授权详情请参见为RAM用户授权。
进入引擎绑定页面
进入管理中心页面。
登录DataWorks控制台,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的工作空间,选择计算引擎信息,进入引擎绑定页面。
绑定E-MapReduce引擎
在 区域,单击E-MapReduce。
在E-MapReduce页签下,单击增加实例。
在新增E-MapReduce实例对话框中,配置各项参数。
说明DataWorks简单模式和标准模式工作空间的配置不同。DataWorks标准模式的工作空间需分别配置生产环境和开发环境的参数。
配置资源显示名与访问模式。
参数
描述
资源显示名
定义当前引擎在DataWorks作为一个计算引擎实例的显示名称,用于在DataWorks上标识该套引擎配置(类似于该引擎在DataWorks的别名)。
您可自定义该显示名称,名称必须唯一。
访问模式
DataWorks提供快捷模式与安全模式两种引擎绑定方式。
快捷模式:
数据权限:快捷模式下,所有EMR任务统一使用Hadoop账号执行。
适用场景:对EMR引擎相关数据权限管控要求较低的场景,建议使用快捷模式。
安全模式:
数据权限:安全模式下,您可指定执行EMR任务所使用的账号为任务责任人所映射集群账号、阿里云主账号所映射集群账号或阿里云子账号所映射集群账号。
适用场景:对于EMR引擎相关数据权限有强管控要求时,建议使用安全模式。
说明快捷模式与安全模式的详细对比,详情请参见快捷模式与安全模式差异比对。
根据选择的访问模式配置集群访问身份。
快捷模式
您无需指定提交EMR任务时,EMR集群的访问身份,默认使用集群内的Hadoop账号提交任务。
即在DataWorks的开发环境或生产环境,使用阿里云主账号或RAM用户运行代码、自动调度任务时,都只是下发代码至EMR集群,实际均是通过集群内的Hadoop账号提交EMR任务。
安全模式
支持指定提交EMR任务时,EMR集群的访问身份为任务责任人所映射集群账号、阿里云主账号所映射集群账号、阿里云子账号所映射集群账号。
说明DataWorks支持标准模式和简单模式,简单模式不区分开发环境与生产环境,标准模式生产与开发环境隔离,详情请参见必读:简单模式和标准模式的区别。
身份
EMR侧实际运行EMR任务的账号
任务责任人所映射集群账号
任务责任人账号映射的EMR集群账号。
说明任务责任人通常为创建任务的用户,您可在任务编辑页面的调度配置>基础属性查看。
阿里云主账号所映射集群账号
阿里云主账号映射的EMR集群账号。
阿里云子账号所映射集群账号
阿里云子账号映射的EMR集群账号。
您需要在引擎绑定完成后,前往开源集群>EMR集群页面,配置访问账号的映射关系。详情请参见后续步骤:配置访问身份的映射关系。
配置引擎信息。
参数
描述
集群类型
选择需要绑定在DataWorks上运行任务的EMR集群类型,包括:
EMR on ECS:数据湖(DataLake)、自定义集群
EMR on ACK:Spark
说明当选择Spark集群类型时,若DataWorks检测到30天内EMR on ACK集群的KubeConf文件即将过期,您需在当前页面重新初始化资源组,否则可能导致任务运行异常。
引擎绑定选择Spark集群类型时,DataWorks支持新建所有EMR类型的节点,但是除EMR Spark SQL、EMR Spark、EMR Spark Streaming节点外,其他类型节点提交至Spark集群的任务均会失败。EMR支持的节点类型,请参见EMR引擎类节点。
集群ID
选择需要绑定在DataWorks上运行任务的EMR集群。
YARN资源队列
在引擎绑定完成后,您需进入配置YARN资源队列。
页面,单击YARN资源队列,配置当前引擎在DataWorks提交任务时默认的YARN队列。详情请参见说明当集群类型选择Spark时,无需配置该参数。
配置资源初始化。
选择与当前DataWorks工作空间网络连通的独享调度资源组。
若没有可用的独享调度资源组则需新建。新建独享调度资源组并配置网络连通性,详情请参见新增和使用独享调度资源组。
单击初始化,对资源组进行初始化操作,验证独享调度资源组和EMR引擎的网络连通性。
您也可选择多个资源组,批量进行初始化。
说明当EMR引擎配置或组件版本变更时,需要在此界面重新对资源组进行初始化操作。
单击确认,完成引擎绑定。
引擎绑定完成后,您可根据需要执行如下后续操作:
后续步骤:设置数据开发过程中的默认引擎实例,详情请参见后续步骤:设置默认引擎实例。
后续步骤:为绑定的引擎配置访问身份映射关系,详情请参见后续步骤:配置访问身份的映射关系。
后续步骤:为绑定的引擎配置全局YARN资源队列,详情请参见后续步骤:配置全局YARN资源队列。
后续步骤:为绑定的引擎配置全局Spark属性,详情请参见后续步骤:配置全局Spark属性。
配置完成后,可基于该引擎进行数据开发,详情请参见入门教程:数据开发入门、操作指南:数据开发。
后续步骤:设置默认引擎实例
在绑定的引擎实例界面右上角,单击设置为默认实例,即可将指定引擎设置为数据开发过程中默认选择的引擎。
后续步骤:配置访问身份的映射关系
当使用安全模式绑定EMR引擎,在引擎绑定完成后,您需配置工作空间成员个人账号与集群账号的映射关系,后续使用该映射账号执行相关EMR任务。
映射账号说明如下:
使用OPEN LDAP账号映射,需先在EMR侧开启LDAP。详情请参见DataLake集群配置。
使用Kerberos账号映射,需先在EMR侧开启Kerberos。详情请参见开启Kerberos。
访问身份映射关系配置步骤如下:
进入访问身份映射配置入口。
您可通过如下三种方式进入。
方式
步骤
1
成功添加E-MapReduce引擎后,在弹出的请注意对话框,单击去配置开发环境及去配置生产环境。
2
在
区域的引擎实例绑定页面,单击配置账号映射关系。3
在
页面的账号映射页签,单击指定集群的编辑按钮。配置集群账号映射关系。
在编辑EMR集群配置对话框,上传配置文件并配置引擎权限映射。
上传配置文件。
当集群开启LDAP或Kerberos认证(即配置引擎权限映射关系时,映射类型选择OPEN LDAP账号映射或Kerberos账号映射),您需先上传keytab文件,保障EMR Trino和EMR Presto任务的正常运行。
配置引擎权限映射关系。
您可使用如下两种方式配置引擎权限映射关系。
说明阿里云主账号或拥有AliyunEMRFullAccess权限策略的RAM用户可以为本工作空间所有成员配置身份映射,其余工作空间成员仅可以为自己配置身份映射。
您可添加多个云账号与EMR集群账号的映射关系。DataWorks支持多个云账号映射至同一个映射账号。
引用已创建的映射关系:在引用映射关系中直接选择引用当前工作空间中已创建的权限映射关系。
创建新的权限映射关系:选择映射类型后,在配置引擎权限映射区域,选择需要配置映射关系的云账号及相应的映射账号。
当前支持将DataWorks的提交任务映射至不同的EMR集群账号中。
若需进行用户权限认证,实现不同身份用户拥有不同权限的目的,则可使用该映射类型。映射后,将使用LDAP账号提交运行EMR任务。
在EMR集群开启LDAP,详情请参见DataLake集群配置。
若EMR集群Hive MetaStore开启Kerberos认证,则需使用该映射类型,否则会影响元数据采集。映射后,将使用Kerberos账号提交运行EMR任务。
在EMR集群开启Kerberos,详情请参见开启Kerberos。
单击确定,完成创建。
映射类型
映射后的EMR账号说明
系统账号映射
默认映射后的EMR集群账号为阿里云主账号或子账号的同名账号。
例如,系统账号ram_user_1@xxx.onaliyun.com映射后的集群账号为ram_user_1。
OPEN LDAP账号映射
Kerberos账号映射
后续步骤:配置全局YARN资源队列
引擎绑定完成后,您可进行YARN资源队列的全局配置,后续将默认使用该队列配置执行EMR任务。YARN资源队列全局配置支持工作空间粒度设置,并支持设置该全局配置优先级,即您可定义在此处配置的YARN资源队列优先级是否高于指定模块内配置的YARN资源队列优先级。
YARN资源队列的设置仅在当前DataWorks工作空间中生效。关于EMR YARN说明,详情请参见队列基础配置。
进入YARN资源队列配置入口。
您可通过如下两种方式进入。
方式
步骤
1
在
区域绑定E-MapReduce引擎时,单击YARN资源队列参数的开源集群管理/EMR集群配置,选择YARN资源队列。2
在
页面,单击YARN资源队列。在YARN资源队列页面,您可查看当前DataWorks工作空间下创建的各个引擎实例。
配置YARN资源队列。
单击目标引擎实例右上角的编辑,根据业务需要设置资源队列。
参数
步骤
资源队列
配置各模块运行时使用的YARN资源队列,您可进入EMR on ECS控制台获取EMR已创建的资源队列。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效;此时将按照全局配置的YARN资源队列来统一运行任务。
全局配置:表示在
页面的YARN 资源队列配置。产品模块内配置:
数据开发(DataStudio):EMR节点编辑页面右侧导航栏的高级设置中,支持通过queue参数对单个节点任务设置YARN资源队列。
数据质量:EMR表的分区规则中,支持通过运行队列配置项对单个分区下的规则设置YARN资源队列。
其他产品模块:暂不支持在模块内单独设置YARN资源队列。
单击确认,完成配置。
后续步骤:配置全局Spark属性
引擎绑定完成后,您可进行Spark属性的全局配置,后续将默认使用该属性配置执行EMR任务。Spark全局参数配置支持工作空间粒度定义Spark属性,并支持设置该全局配置的优先级,即您可定义在此处配置的Spark参数优先级是否高于指定模块内配置的同名参数优先级。
Spark属性的设置仅在当前DataWorks工作空间中生效。关于SPARK属性的说明,详情请参见Spark Configurations、Spark Configurations on Kubernetes。
您可在DataWorks的管理中心及阿里云E-MapReduce控制台中更新Spark相关配置,若相同Spark属性在两者中的配置不同时,则通过DataWorks提交的任务将采用DataWorks管理中心中的属性配置。
配置的Spark属性,仅针对EMR Spark、EMR Spark SQL、EMR Spark Streaming节点生效。
进入Spark属性配置入口。
在
页面,单击SPARK参数,您可在该页面查看当前DataWorks工作空间下创建的各个引擎实例。配置Spark属性。
单击目标引擎实例右上角的编辑,根据业务需要配置Spark属性。
参数
步骤
Spark属性
您可参考Spark Configurations、Spark Configurations on Kubernetes配置Spark属性。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效;此时将按照全局配置的Spark属性来统一运行任务。
全局配置:表示在
页面的SPARK参数配置。产品模块内配置:
数据开发(DataStudio):EMR节点编辑页面右侧导航栏的高级设置中,支持对单个节点任务设置Spark属性。
其他产品模块:暂不支持在模块内单独设置Spark属性。
单击确认,完成配置。