若您要使用DataWorks进行EMR Serverless Spark任务的开发、管理,需先将您的EMR Serverless Spark工作空间绑定为DataWorks的Serverless Spark计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据开发操作。
准备工作
-
DataWorks已创建工作空间,操作者使用的RAM账号已加入工作空间并设置为工作空间管理员角色。
重要仅支持选择使用新版数据开发(Data Studio)的工作空间。
-
已使用Serverless资源组,并绑定到目标DataWorks工作空间。
使用限制
-
地域限制 :华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、印度尼西亚(雅加达)、德国(法兰克福)、美国( 硅谷)、美国(弗吉尼亚)。
-
权限限制:
操作人
具备权限说明
阿里云主账号
无需额外授权。
阿里云RAM账号/RAM角色
-
DataWorks管理权限:仅拥有运维和空间管理员角色的空间成员,或拥有
AliyunDataWorksFullAccess权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限。 -
EMR Serverless Spark服务权限:
-
AliyunEMRServerlessSparkFullAccess权限策略。 -
EMR Serverless Spark工作空间
Owner权限。详情请参见管理用户和角色。
-
-
进入计算资源列表页
-
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入管理中心。
-
在左侧导航栏单击计算资源,进入计算资源列表页。
绑定Serverless Spark计算资源
在计算资源列表页,配置绑定Serverless Spark计算资源。
-
选择绑定计算资源类型。
-
单击绑定计算资源,进入绑定计算资源页面。
-
在绑定计算资源页面选择计算资源类型为Serverless Spark,进入绑定Serverless Spark计算资源配置页面。
-
-
配置Serverless Spark计算资源。
在绑定Serverless Spark计算资源配置页面,根据下表内容进行相应配置。
参数
说明
Spark工作空间
选择需要绑定的Spark工作空间。您也可单击下拉菜单中的新建来创建Spark工作空间。
默认引擎版本
选择需要使用的引擎版本。
-
在Data Studio中新建EMR Spark任务时,将会默认使用该引擎版本。
-
如需面向不同任务设置不同的引擎版本,请在Spark任务编辑窗口的高级设置中进行定义。
默认资源队列
选择需要使用的资源队列。您也可单击下拉菜单中的新建来添加队列。
-
在Data Studio中新建EMR Spark任务时,将会默认使用该资源队列。
-
如需面向不同任务设置不同的资源队列,请在Spark任务编辑窗口的高级设置中进行定义。
默认Kyuubi Gateway
非必填。Kyuubi Gateway 的配置状态会影响以下任务的执行方式:
-
当配置了 Kyuubi Gateway 时:
-
所有相关任务(EMR Spark SQL/Kyuubi, Serverless Spark SQL/Kyuubi)均通过 Kyuubi Gateway 执行。
-
-
当未配置 Kyuubi Gateway 时:
-
EMR Spark SQL 和 Serverless Spark SQL:通过
spark-submit执行。 -
EMR Kyuubi 和 Serverless Kyuubi:执行失败。
-
若需配置,请前往创建Kyuubi Gateway 和 Token 。
-
未开启Kerberos:单击Kyuubi Gateway的名称,获取JDBC URL和Token信息拼接获取完整链接。
-
已开启Kerberos:根据已配置的Kerberos信息,获取Beeline链接。详情参见:Kyuubi Gateway使用Kerberos。
# 普通链接举例 jdbc:hive2://kyuubi-cn-hangzhou-internal.spark.emr.aliyuncs.com:80/;transportMode=http;httpPath=cliservice/token/<token> # 开启Kerberos链接举例(请注意不要遗漏kyuubi服务的principle) jdbc:hive2://ep-xxxxxxxxxxx.epsrv-xxxxxxxxxxx.cn-hangzhou.privatelink.aliyuncs.com:10009/;principal=kyuubi/_HOST@EMR.C-DFD43*****7C204.COM
默认访问身份
定义在当前工作空间下,用什么身份访问该Spark工作空间。
-
开发环境:当前仅支持使用执行者身份访问。
-
生产环境:支持使用阿里云主账号、阿里云RAM子账号和任务责任人。
计算资源实例名
用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。
-
-
单击确认,完成Serverless Spark计算资源配置。
配置Spark全局参数
在DataWorks中,您可以按工作空间粒度为各模块指定SPARK参数,并设置全局参数的优先级是否高于特定模块(如数据开发)内的局部参数。设置完成后将默认使用相应的SPARK参数执行任务。设置方式如下:
|
参数生效范围 |
设置方式 |
|
全局配置生效 |
您可以配置全局SPARK参数,以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时,您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数。 |
|
单个节点生效 |
在数据开发模块中,您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。 |
权限控制
仅以下角色可配置全局SPARK参数:
-
阿里云主账号。
-
拥有
AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。 -
拥有空间管理员角色的子账号(RAM用户)。
配置SPARK全局参数
您可通过以下步骤配置SPARK全局参数。配置Serverless Spark计算资源的SPARK参数,详情请参见作业配置说明。
-
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
-
单击Spark参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。
-
设置全局SPARK参数。
单击Spark参数页面右上角的编辑Spark参数,配置各模块的全局SPARK参数及优先级。
说明该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。
参数
步骤
Spark属性
配置运行Serverless Spark任务时使用的Spark属性。
-
您可通过单击下方的添加按钮,输入Spark属性名称和对应的Spark属性值,设置Spark属性信息。
-
可支持设置的Spark属性参数请参见Spark Configuration及Spark Conf自定义参数列表。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。
-
全局配置:表示在对应的Serverless Spark计算资源的Spark参数页面配置的Spark属性。
目前仅支持对数据开发(Data Studio)、运维中心、数据分析模块设置全局SPARK参数。
-
产品模块内配置:
-
数据开发(Data Studio):对于EMR Spark、EMR Kyuubi、EMR Spark SQL、EMR Spark Streaming节点、Serverless Spark Batch、Serverless Spark SQL、Serverless Kyuubi节点,可在节点编辑页面的运行配置或调度配置的Spark参数中,设置单个节点任务的SPARK属性。
-
其他产品模块:暂不支持在模块内单独设置SPARK属性。
-
-
-
单击确认按钮,保存您所配置的全局SPARK参数。
配置集群账号映射
手动配置DataWorks租户成员的云账号与EMR集群指定身份账号的映射关系,可实现DataWorks租户成员通过映射的集群身份在EMR Serverless Spark中执行任务。
该功能仅支持在Serverless资源组中使用。2025年8月15日前购买的Serverless资源组,如需使用该功能,需要提交工单进行资源组升级。
-
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
-
单击账号映射,进入账号映射参数配置栏。
-
单击编辑账号映射来配置集群账号映射信息。您可根据所选映射类型配置相关参数。
账号映射类型
任务运行说明
配置说明
系统账号映射
使用计算资源基础信息中的默认访问身份的同名集群账号来运行EMR Spark、EMR Spark SQL、EMR Kyuubi、基于个人开发环境开发Notebook节点任务。
默认采用同名映射。如果需要使用其他账号映射,可以手动配置指定不同的账号。
OPEN LDAP账号映射
使用计算资源基础信息中的默认访问身份来运行EMR Spark、EMR Spark SQL任务。
使用计算资源基础信息中的默认访问身份所映射的Open LDAP账号来运行EMR Kyuubi、基于个人开发环境开发Notebook节点任务。
在为Kyuubi Gateway配置并启用LDAP认证的情况下,需通过配置云账号和Open LDAP账号(LDAP账号、LDAP密码)的映射关系来执行相应任务。
重要若运行DataWorks任务所需的云账号不在账号映射配置列表中,可能导致任务运行失败。
Kerberos账号映射
使用计算资源基础信息中的默认访问身份来运行EMR Spark、EMR Spark SQL任务。
使用计算资源基础信息中的默认访问身份所映射的Kerberos账号来运行EMR Kyuubi节点任务。
-
需上传EMR Serverless Spark集群配置的Kerberos服务的krb5.conf文件。
-
为默认访问身份指定的云账号配置Kerberos认证所需的principal和keytab。
-
-
单击确认,完成集群账号映射配置。
后续操作
配置完Serverless Spark计算资源后,您可在数据开发节点任务中使用该计算资源进行节点任务开发,详情请参见EMR Spark节点、EMR Spark SQL节点、EMR Spark Streaming节点、EMR Kyuubi节点、Serverless Spark Batch节点、Serverless Spark SQL节点、Serverless Kyuubi节点。