绑定EMR Serverless Spark计算资源

若您要使用DataWorks进行EMR Serverless Spark任务的开发、管理,需先将您的EMR Serverless Spark工作空间绑定为DataWorksServerless Spark计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据开发操作。

前提条件

使用限制

  • 地域限制:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、印度尼西亚(雅加达)、德国(法兰克福)、美国(弗吉尼亚)。

  • 权限限制

    操作人

    具备权限说明

    阿里云主账号

    无需额外授权。

    阿里云RAM账号/RAM角色

    • DataWorks管理权限:仅拥有运维空间管理员角色的空间成员,或拥有AliyunDataWorksFullAccess权限的空间成员可创建计算资源。授权详情请参见授权用户空间管理员权限

    • EMR Serverless Spark服务权限:

      • AliyunEMRServerlessSparkFullAccess权限策略。

      • EMR Serverless Spark工作空间Owner权限。详情请参见管理用户和角色

进入计算资源列表页

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  2. 在左侧导航栏单击计算资源,进入计算资源列表页。

绑定Serverless Spark计算资源

计算资源列表页,配置绑定Serverless Spark计算资源。

  1. 选择绑定计算资源类型。

    1. 单击绑定计算资源新建计算资源,进入绑定计算资源页面。

    2. 绑定计算资源页面选择计算资源类型为Serverless Spark,进入绑定Serverless Spark计算资源配置页面。

  2. 配置Serverless Spark计算资源。

    绑定Serverless Spark计算资源配置页面,根据下表内容进行相应配置。

    参数

    说明

    Spark工作空间

    选择需要绑定的Spark工作空间。您也可单击下拉菜单中的新建创建Spark工作空间

    角色授权

    为了DataWorks能够正常获取EMR Serverless Spark集群的信息,首次选择Spark工作空间后,请单击添加服务关联角色作为工作空间管理员

    重要

    创建服务关联角色后,请勿在E-MapReduce Serverless Spark工作空间中移除DataWorks服务关联角色AliyunServiceRoleForDataWorksOnEmrAliyunServiceRoleForDataworksEngine的管理员角色。

    默认引擎版本

    选择需要使用的引擎版本。

    • Data Studio中新建EMR Spark任务时,将会默认使用该引擎版本。

    • 如需面向不同任务设置不同的引擎版本,请在Spark任务编辑窗口的高级设置中进行定义。

    默认消息队列

    选择需要使用的消息队列。您也可单击下拉菜单中的新建添加队列

    • Data Studio中新建EMR Spark任务时,将会默认使用该资源队列。

    • 如需面向不同任务设置不同的资源队列,请在Spark任务编辑窗口的高级设置中进行定义。

    默认SQL Compute

    非必填。在EMR Spark SQL节点任务中使用的默认SQL Compute。可单击下拉菜单中的新建创建SQL会话

    • SQL会话支持为每个会话独立配置运行资源,从而实现任务级别的资源隔离与灵活调度。通过将不同任务分配至不同的SQL会话执行,不仅可以提升集群资源的利用率,还能有效避免资源争抢与浪费,更好地满足多样化任务需求。

    • 如需面向不同任务设置不同的SQL Compute,请在Spark任务编辑窗口的高级设置中进行定义。

    默认访问身份

    定义在当前工作空间下,用什么身份访问该Spark工作空间。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:支持使用阿里云主账号阿里云RAM子账号任务责任人

    计算资源实例名

    用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

  3. 单击确认,完成Serverless Spark计算资源配置。

配置Spark全局参数

DataWorks中,您可以按工作空间粒度为各模块指定SPARK参数,并设置全局参数的优先级是否高于特定模块(如数据开发)内的局部参数。设置完成后将默认使用相应的SPARK参数执行任务。设置方式如下:

参数生效范围

设置方式

全局配置生效

您可以配置全局SPARK参数,以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时,您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数

单个节点生效

在数据开发模块中,您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。

权限控制

仅以下角色可配置全局SPARK参数:

  • 阿里云主账号。

  • 拥有AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。

  • 拥有空间管理员角色的子账号(RAM用户)。

查看SPARK全局参数

  1. 进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。

  2. 单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。

配置SPARK全局参数

您可通过以下步骤配置SPARK全局参数。配置Serverless Spark计算资源的SPARK参数,详情请参见作业配置说明

  1. 进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。

  2. 单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。

  3. 设置全局SPARK参数。

    单击SPARK参数页面右上角的编辑SPARK参数,配置各模块的全局SPARK参数及优先级。

    说明

    该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。

    参数

    步骤

    Spark属性

    配置运行EMR Serverless Spark任务时使用的Spark属性。

    全局配置是否优先

    勾选后,表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。

    • 全局配置:表示在管理中心 > 计算资源对应的Serverless Spark计算资源SPARK参数页面配置的Spark属性。

      目前仅支持对数据开发(Data Studio)、运维中心模块设置全局SPARK参数。

    • 产品模块内配置

      • 数据开发(Data Studio):对于EMR Spark、EMR Spark SQL节点,可在节点编辑页面的调试配置调度配置Spark参数中,设置单个节点任务的SPARK属性。

      • 其他产品模块:暂不支持在模块内单独设置SPARK属性。

  4. 单击确认按钮,保存您所配置的全局SPARK参数

配置集群账号映射

手动配置DataWorks租户成员的云账号与EMR集群指定身份账号的映射关系,可实现DataWorks租户成员通过映射的集群身份在EMR Serverless Spark中执行任务。

重要

该功能仅支持在Serverless资源组中使用。2025815日前购买的Serverless资源组,如需使用该功能,需要提交工单进行资源组升级。

  1. 进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。

  2. 单击账号映射,进入账号映射参数配置栏。

  3. 单击编辑账号映射来配置集群账号映射信息。您可根据所选映射类型配置相关参数。

    账号映射类型

    任务运行说明

    配置说明

    系统账号映射

    使用计算资源基础信息中的默认访问身份的同名集群账号来运行EMR SparkEMR Spark SQLEMR KyuubiNotebook节点任务。

    默认采用同名映射。如果需要使用其他账号映射,可以手动配置指定不同的账号。

    OPEN LDAP账号映射

    使用计算资源基础信息中的默认访问身份来运行EMR SparkEMR Spark SQL任务。

    使用计算资源基础信息中的默认访问身份所映射的Open LADP账号来运行EMR KyuubiNotebook节点任务。

    Kyuubi Gateway配置并启用LDAP认证的情况下,需通过配置云账号Open LADP账号(LDAP账号LDAP密码)的映射关系来执行相应任务。

    重要

    若运行DataWorks任务所需的云账号不在账号映射配置列表中,可能导致任务运行失败。

  4. 单击确认,完成集群账号映射配置。

配置Kyuubi连接

如需在EMR Serverless Spark计算资源中运行EMR Kyuubi节点相关任务,您需参考以下步骤完成Kyuubi的连接配置。

重要

该功能仅支持在Serverless资源组中使用。2025815前购买的Serverless资源组,如需使用该功能,需要提交工单进行资源组升级。

  • 配置前提:已为EMR Serverless Spark集群创建Kyuubi GatewayToken

  • 配置方式

    1. 进入计算资源列表页,找到您所绑定的Serverless Spark计算资源。

    2. 单击Kyuubi配置,进入Kyuubi配置参数配置栏。

    3. 单击Kyuubi配置页面右上角的编辑Kyuubi配置,配置集群的Kyuubi连接。

      1. 通过管理Kyuubi Gateway获取您所创建的Token信息。

      2. JDBC URL参数.../;transportMode=http;httpPath=cliservice/token/的后面补全您所获取的Token信息。

        如果.../;transportMode=http;httpPath=cliservice/token/信息不存在,可根据界面提示创建相应的Kyuubi Gateway。
      3. 单击确认,完成配置。

后续操作

配置完Serverless Spark计算资源后,您可在数据开发节点任务中使用该计算资源进行节点任务开发,详情请参见EMR Spark节点EMR Spark SQL节点