若您要使用DataWorks进行EMR Serverless Spark任务的开发、管理,需先将您的EMR Serverless Spark工作空间绑定为DataWorks的Serverless Spark计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据开发操作。
前提条件
DataWorks已创建工作空间,操作者使用的RAM账号已加入工作空间并设置为工作空间管理员角色。
重要仅支持选择参加数据开发(Data Studio)(新版)公测的工作空间。
已新增和使用Serverless资源组,并绑定到目标DataWorks工作空间。
使用限制
地域限制:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、印度尼西亚(雅加达)、德国(法兰克福)、美国(弗吉尼亚)。
权限限制:
操作人
具备权限说明
阿里云主账号
无需额外授权。
阿里云RAM账号/RAM角色
DataWorks管理权限:仅拥有运维和空间管理员角色的空间成员,或拥有
AliyunDataWorksFullAccess
权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限。EMR Serverless Spark服务权限:
AliyunEMRServerlessSparkFullAccess
权限策略。EMR Serverless Spark工作空间
Owner
权限。详情请参见管理用户和角色。
进入计算资源列表页
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
在左侧导航栏单击计算资源,进入计算资源列表页。
绑定Serverless Spark计算资源
在计算资源列表页,配置绑定Serverless Spark计算资源。
选择绑定计算资源类型。
单击绑定计算资源或新建计算资源,进入绑定计算资源页面。
在绑定计算资源页面选择计算资源类型为Serverless Spark,进入绑定Serverless Spark计算资源配置页面。
配置Serverless Spark计算资源。
在绑定Serverless Spark计算资源配置页面,根据下表内容进行相应配置。
参数
说明
Spark工作空间
选择需要绑定的Spark工作空间。您也可单击下拉菜单中的新建来创建Spark工作空间。
角色授权
为了DataWorks能够正常获取EMR Serverless Spark集群的信息,首次选择Spark工作空间后,请单击添加服务关联角色作为工作空间管理员。
重要创建服务关联角色后,请勿在E-MapReduce Serverless Spark工作空间中移除DataWorks服务关联角色
AliyunServiceRoleForDataWorksOnEmr
和AliyunServiceRoleForDataworksEngine
的管理员角色。默认引擎版本
选择需要使用的引擎版本。
在Data Studio中新建EMR Spark任务时,将会默认使用该引擎版本。
如需面向不同任务设置不同的引擎版本,请在Spark任务编辑窗口的高级设置中进行定义。
默认消息队列
选择需要使用的消息队列。您也可单击下拉菜单中的新建来添加队列。
在Data Studio中新建EMR Spark任务时,将会默认使用该资源队列。
如需面向不同任务设置不同的资源队列,请在Spark任务编辑窗口的高级设置中进行定义。
默认SQL Compute
非必填。在EMR Spark SQL节点任务中使用的默认SQL Compute。可单击下拉菜单中的新建来创建SQL会话。
SQL会话支持为每个会话独立配置运行资源,从而实现任务级别的资源隔离与灵活调度。通过将不同任务分配至不同的SQL会话执行,不仅可以提升集群资源的利用率,还能有效避免资源争抢与浪费,更好地满足多样化任务需求。
如需面向不同任务设置不同的SQL Compute,请在Spark任务编辑窗口的高级设置中进行定义。
默认访问身份
定义在当前工作空间下,用什么身份访问该Spark工作空间。
开发环境:当前仅支持使用执行者身份访问。
生产环境:支持使用阿里云主账号、阿里云RAM子账号和任务责任人。
计算资源实例名
用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。
单击确认,完成Serverless Spark计算资源配置。
配置Spark全局参数
在DataWorks中,您可以按工作空间粒度为各模块指定SPARK参数,并设置全局参数的优先级是否高于特定模块(如数据开发)内的局部参数。设置完成后将默认使用相应的SPARK参数执行任务。设置方式如下:
参数生效范围 | 设置方式 |
全局配置生效 | 您可以配置全局SPARK参数,以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时,您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数。 |
单个节点生效 | 在数据开发模块中,您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。 |
权限控制
仅以下角色可配置全局SPARK参数:
阿里云主账号。
拥有
AliyunDataWorksFullAccess
权限的子账号(RAM用户)或RAM角色。拥有空间管理员角色的子账号(RAM用户)。
查看SPARK全局参数
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。
配置SPARK全局参数
您可通过以下步骤配置SPARK全局参数。配置Serverless Spark计算资源的SPARK参数,详情请参见作业配置说明。
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。
设置全局SPARK参数。
单击SPARK参数页面右上角的编辑SPARK参数,配置各模块的全局SPARK参数及优先级。
说明该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。
参数
步骤
Spark属性
配置运行EMR Serverless Spark任务时使用的Spark属性。
您可通过单击下方的添加按钮,输入Spark属性名称和对应的Spark属性值,设置Spark属性信息。
可支持设置的Spark属性参数请参见Spark Configuration及Spark Conf自定义参数列表。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。
全局配置:表示在 对应的Serverless Spark计算资源的SPARK参数页面配置的Spark属性。
目前仅支持对数据开发(Data Studio)、运维中心模块设置全局SPARK参数。
产品模块内配置:
数据开发(Data Studio):对于EMR Spark、EMR Spark SQL节点,可在节点编辑页面的调试配置或调度配置的Spark参数中,设置单个节点任务的SPARK属性。
其他产品模块:暂不支持在模块内单独设置SPARK属性。
单击确认按钮,保存您所配置的全局SPARK参数。
配置集群账号映射
手动配置DataWorks租户成员的云账号与EMR集群指定身份账号的映射关系,可实现DataWorks租户成员通过映射的集群身份在EMR Serverless Spark中执行任务。
该功能仅支持在Serverless资源组中使用。2025年8月15日前购买的Serverless资源组,如需使用该功能,需要提交工单进行资源组升级。
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
单击账号映射,进入账号映射参数配置栏。
单击编辑账号映射来配置集群账号映射信息。您可根据所选映射类型配置相关参数。
账号映射类型
任务运行说明
配置说明
系统账号映射
使用计算资源基础信息中的默认访问身份的同名集群账号来运行EMR Spark、EMR Spark SQL、EMR Kyuubi、Notebook节点任务。
默认采用同名映射。如果需要使用其他账号映射,可以手动配置指定不同的账号。
OPEN LDAP账号映射
使用计算资源基础信息中的默认访问身份来运行EMR Spark、EMR Spark SQL任务。
使用计算资源基础信息中的默认访问身份所映射的Open LADP账号来运行EMR Kyuubi、Notebook节点任务。
在为Kyuubi Gateway配置并启用LDAP认证的情况下,需通过配置云账号和Open LADP账号(LDAP账号、LDAP密码)的映射关系来执行相应任务。
重要若运行DataWorks任务所需的云账号不在账号映射配置列表中,可能导致任务运行失败。
单击确认,完成集群账号映射配置。
配置Kyuubi连接
如需在EMR Serverless Spark计算资源中运行EMR Kyuubi节点相关任务,您需参考以下步骤完成Kyuubi的连接配置。
该功能仅支持在Serverless资源组中使用。2025年8月15日
前购买的Serverless资源组,如需使用该功能,需要提交工单进行资源组升级。
配置前提:已为EMR Serverless Spark集群创建Kyuubi Gateway和Token。
配置方式:
进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。
单击Kyuubi配置,进入Kyuubi配置参数配置栏。
单击Kyuubi配置页面右上角的编辑Kyuubi配置,配置集群的Kyuubi连接。
通过管理Kyuubi Gateway获取您所创建的Token信息。
在JDBC URL参数
.../;transportMode=http;httpPath=cliservice/token/
的后面补全您所获取的Token信息。如果
.../;transportMode=http;httpPath=cliservice/token/
信息不存在,可根据界面提示创建相应的Kyuubi Gateway。单击确认,完成配置。
后续操作
配置完Serverless Spark计算资源后,您可在数据开发节点任务中使用该计算资源进行节点任务开发,详情请参见EMR Spark节点、EMR Spark SQL节点。