绑定Lindorm计算资源

若您要使用DataWorks进行Lindorm任务的开发、管理,需先将您的Lindorm实例绑定为DataWorksLindorm计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据同步和开发等操作。

背景信息

Lindorm是基于云原生架构的分布式计算服务,支持社区版计算模型、兼容Spark接口,并深度融合Lindorm存储引擎特性。能够利用底层数据存储特征及索引能力,高效完成分布式作业任务,适用于海量数据处理、交互式分析、机器学习和图计算等场景。

前提条件

绑定Lindorm计算资源

使用限制

  • 地域限制:华东1(杭州)、华东2(上海)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)。

  • 权限限制

    • 仅支持使用DataWorks Serverless资源组在DataWorks运行Lindorm任务。

    • 仅拥有运维空间管理员角色的空间成员,或拥有AliyunDataWorksFullAccess权限的空间成员可创建计算资源。查看成员角色或授权详情请参见添加空间成员并管理成员角色权限

进入计算资源列表页

  1. 前往DataWorks工作空间列表页,在顶部切换至目标地域,找到需要创建计算资源的工作空间。单击工作空间名称或操作列的详情,进入工作空间详情页。

  2. 在左侧导航栏单击计算资源,按需选择计算资源类型,进入计算资源列表页。

绑定Lindorm计算资源

计算资源列表页,您可参考以下参数信息配置绑定Lindorm计算资源。

  1. 选择绑定计算资源类型。

    1. 单击绑定计算资源新建计算资源,进入绑定计算资源页面。

    2. 绑定计算资源页面选择计算资源类型为Lindorm,进入绑定Lindorm计算资源配置页面。

  2. 配置Lindorm计算资源。

    绑定Lindorm计算资源配置页面,您可根据下表内容进行相应配置。

    配置区域

    参数

    配置说明

    基本信息

    配置模式

    仅支持阿里云实例模式

    实例

    此处下拉展示您当前地域的Lindorm实例,请从中选择需要绑定至DataWorksLindorm实例。

    计算引擎类型

    默认为Spark引擎。

    Lindorm资源组

    请选择DataWorks上运行Lindorm任务默认使用的Lindorm计算资源组,默认为default

    数据库名称

    请选择DataWorks上使用该Lindorm计算资源时默认连接的数据库,默认连接default数据库。

    用户名

    请填写DataWorks使用该Lindorm计算资源时用于身份认证的用户名。您可以在Lindorm管理控制台中找到所创建的Lindorm实例,单击实例名称,在左侧的数据库连接中获取用户名信息。

    密码

    请填写DataWorks使用该Lindorm计算资源时用于身份认证的密码。您可以在Lindorm管理控制台中找到所创建的Lindorm实例,单击实例名称,在左侧的数据库连接中获取用户密码信息。

    连接配置

    连通状态

    在连接配置区域,请选择DataWorks用于运行Lindorm任务的Serverless资源组,并单击测试连通性以确保资源组可以正常访问您的Lindorm实例。详情请参见网络连通方案

  3. 单击确认,完成Lindorm计算资源配置。

(可选)配置Spark全局参数

DataWorks中,您可以按工作空间粒度为各模块指定SPARK参数,之后这些模块将默认使用相应的SPARK参数执行任务。您可参考设置全局Spark参数来自定义全局的SPARK参数,并设置全局参数的优先级是否高于特定模块(如数据开发、数据分析和运维中心)内的局部参数。以下将为您介绍如何设置全局SPARK参数。

背景信息

Apache Spark是一个用于大规模数据分析的引擎。在DataWorks中,您可以按以下方式配置调度节点运行时使用的SPARK参数:

方式一:您可以配置全局SPARK参数,以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时,您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数

方式二:在数据开发模块中,您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。

权限控制

仅以下角色可配置全局SPARK参数:

  • 阿里云主账号。

  • 拥有AliyunDataWorksFullAccess权限的子账号(RAM用户)或RAM角色。

  • 拥有空间管理员角色的子账号(RAM用户)。

查看SPARK全局参数

  1. 进入计算资源列表页,找到您所绑定的Lindorm计算资源。

  2. 单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。

配置SPARK全局参数

您可通过以下步骤配置SPARK全局参数。配置Lindorm计算资源的SPARK参数,详情请参见作业配置说明

  1. 进入计算资源列表页,找到您所绑定的Lindorm计算资源。

  2. 单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。

  3. 设置全局SPARK参数。

    单击SPARK参数页面右上角的编辑SPARK参数,配置各模块的全局SPARK参数及优先级。

    说明

    该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。

    参数

    步骤

    Spark属性

    配置各模块运行Lindorm任务时使用的Spark属性。可参见作业配置说明

    单击下方的添加按钮,输入Spark属性名称和对应的Spark属性值

    说明

    如需开启血缘和产出信息的采集,您可进行以下配置:

    • 输入Spark属性名称spark.sql.queryExecutionListeners

    • Spark属性值com.aliyun.dataworks.meta.lineage.LineageListener

    更多Spark属性参数设置,请参见作业配置说明

    全局配置是否优先

    勾选后,表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。

    • 全局配置:表示在管理中心 > 计算资源对应的Lindorm计算资源SPARK参数页面配置的Spark属性。

      目前仅支持对数据开发(Data Studio)、运维中心模块设置全局SPARK参数。

    • 产品模块内配置:

    • 数据开发(DataStudio):对于Lindorm Spark、Lindorm Spark SQL节点,可在节点编辑页面的配置项或节点编辑页面,设置单个节点任务的SPARK属性。

    • 其他产品模块:暂不支持在模块内单独设置SPARK属性。

  4. 单击确认按钮,保存您所配置的全局SPARK参数

后续操作