绑定并配置Lindorm为DataWorks计算资源-大数据开发治理平台 DataWorks-阿里云

若您要使用DataWorks进行Lindorm任务的开发、管理，需先将您的Lindorm实例绑定为DataWorks的Lindorm计算资源。绑定完成后，可在DataWorks中使用该计算资源进行数据同步和开发等操作。

背景信息

Lindorm是基于云原生架构的分布式计算服务，支持社区版计算模型、兼容Spark接口，并深度融合Lindorm存储引擎特性。能够利用底层数据存储特征及索引能力，高效完成分布式作业任务，适用于海量数据处理、交互式分析、机器学习和图计算等场景。

前提条件

已创建工作空间。
重要
仅支持使用新版数据开发（Data Studio）的工作空间。
已创建Lindorm实例，该实例需要满足以下条件：
- 该Lindorm实例已开通计算引擎。
- 该Lindorm实例与DataWorks工作空间在同一地域。
已使用Serverless资源组，并绑定到目标DataWorks工作空间。

绑定Lindorm计算资源

使用限制

地域限制：华东1（杭州）、华东2（上海）、华北2（北京）、华北6（乌兰察布）、华南1（深圳）、西南1（成都）、中国香港、日本（东京）、新加坡、马来西亚（吉隆坡）、印度尼西亚（雅加达）。
权限限制：
- 仅支持使用DataWorks Serverless资源组在DataWorks运行Lindorm任务。
- 仅拥有运维和空间管理员角色的空间成员，或拥有AliyunDataWorksFullAccess权限的空间成员可创建计算资源。查看成员角色或授权详情请参见添加空间成员并管理成员角色权限。

进入计算资源列表页

前往DataWorks工作空间列表页，在顶部切换至目标地域，找到需要创建计算资源的工作空间。单击工作空间名称或操作列的详情，进入工作空间详情页。
在左侧导航栏单击计算资源，按需选择计算资源类型，进入计算资源列表页。

绑定Lindorm计算资源

在计算资源列表页，您可参考以下参数信息配置绑定Lindorm计算资源。

选择绑定计算资源类型。
1. 单击绑定计算资源，进入绑定计算资源页面。
2. 在绑定计算资源页面选择计算资源类型为Lindorm，进入绑定Lindorm计算资源配置页面。

配置Lindorm计算资源。

在绑定Lindorm计算资源配置页面，您可根据下表内容进行相应配置。

配置区域	参数	配置说明
基本信息	配置模式	仅支持阿里云实例模式。
	实例	此处下拉展示您当前地域的Lindorm实例，请从中选择需要绑定至DataWorks的Lindorm实例。
	数据库名称	请选择DataWorks上使用该Lindorm计算资源时默认连接的数据库，默认连接`default`数据库。
	用户名/密码	请填写DataWorks使用该Lindorm计算资源时用于身份认证的用户名和密码信息。您可以在Lindorm管理控制台中找到所创建的Lindorm实例，单击实例名称，在左侧的数据库连接中获取用户名和密码信息。
	用户名/密码
	计算资源实例名	自定义计算资源实例名。在任务运行时，可根据计算资源名称来选择任务运行的计算资源。
连接配置	连通状态	在连接配置区域，请选择DataWorks用于运行Lindorm任务的Serverless资源组，并单击测试连通性以确保资源组可以正常访问您的Lindorm实例。详情请参见网络连通方案概述。

单击确认，完成Lindorm计算资源配置。

（可选）配置Spark全局参数

在DataWorks中，您可以按工作空间粒度为各模块指定SPARK参数，之后这些模块将默认使用相应的SPARK参数执行任务。您可参考设置全局Spark参数来自定义全局的SPARK参数，并设置全局参数的优先级是否高于特定模块（如数据开发、数据分析和运维中心）内的局部参数。以下将为您介绍如何设置全局SPARK参数。

背景信息

Apache Spark是一个用于大规模数据分析的引擎。在DataWorks中，您可以按以下方式配置调度节点运行时使用的SPARK参数：

方式一：您可以配置全局SPARK参数，以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时，您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数。

方式二：在数据开发模块中，您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。

权限控制

仅以下角色可配置全局SPARK参数：

阿里云主账号。
拥有AliyunDataWorksFullAccess权限的子账号（RAM用户）或RAM角色。
拥有空间管理员角色的子账号（RAM用户）。

查看SPARK全局参数

进入计算资源列表页，找到您所绑定的Lindorm计算资源。
单击SPARK参数，进入SPARK参数配置栏，即可查看SPARK全局参数配置信息。

配置SPARK全局参数

您可通过以下步骤配置SPARK全局参数。配置Lindorm计算资源的SPARK参数，详情请参见作业配置说明。

进入计算资源列表页，找到您所绑定的Lindorm计算资源。
单击SPARK参数，进入SPARK参数配置栏，即可查看SPARK全局参数配置信息。

设置全局SPARK参数。

单击SPARK参数页面右上角的编辑SPARK参数，配置各模块的全局SPARK参数及优先级。

说明

该配置为工作空间全局配置，请在配置前确认所使用的工作空间是否正确。

参数

步骤

Spark属性

配置各模块运行Lindorm任务时使用的Spark属性。可参见作业配置说明。

单击下方的添加按钮，输入Spark属性名称和对应的Spark属性值。

说明

如需开启血缘和产出信息的采集，您可进行以下配置：

输入Spark属性名称为spark.sql.queryExecutionListeners。
Spark属性值为com.aliyun.dataworks.meta.lineage.LineageListener。

更多Spark属性参数设置，请参见作业配置说明。

全局配置是否优先

勾选后，表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。

全局配置：表示在管理中心 > 计算资源对应的Lindorm计算资源的SPARK参数页面配置的Spark属性。
目前仅支持对数据开发（Data Studio）、运维中心模块设置全局SPARK参数。
产品模块内配置：
- 数据开发（Data Studio）：对于Lindorm Spark、Lindorm Spark SQL节点，可在节点编辑页面的配置项或节点编辑页面，设置单个节点任务的SPARK属性。
- 其他产品模块：暂不支持在模块内单独设置SPARK属性。

单击确认按钮，保存您所配置的全局SPARK参数。

后续操作

配置完Lindorm计算资源后，您可以在数据开发节点任务中使用该计算资源进行节点任务开发，详情请参见Lindorm Spark节点、Lindorm Spark SQL节点。
在配置SPARK全局参数时，请开启Lindorm血缘和产出信息的采集功能。创建并运行元数据采集器后，您可以通过数据地图查看和管理Lindorm数据地图查看和管理Lindorm的元数据信息。