若您要使用DataWorks进行Lindorm任务的开发、管理,需先将您的Lindorm实例绑定为DataWorks的Lindorm计算资源。绑定完成后,可在DataWorks中使用该计算资源进行数据同步和开发等操作。
背景信息
Lindorm是基于云原生架构的分布式计算服务,支持社区版计算模型、兼容Spark接口,并深度融合Lindorm存储引擎特性。能够利用底层数据存储特征及索引能力,高效完成分布式作业任务,适用于海量数据处理、交互式分析、机器学习和图计算等场景。
前提条件
已创建工作空间。
重要仅支持选择参加数据开发(Data Studio)(新版)公测的工作空间。
已创建Lindorm实例,该实例需要满足以下条件:
该Lindorm实例已开通计算引擎。
该Lindorm实例与DataWorks工作空间在同一地域。
已新增和使用Serverless资源组,并绑定到目标DataWorks工作空间。
绑定Lindorm计算资源
使用限制
地域限制:华东1(杭州)、华东2(上海)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、西南1(成都)、中国香港、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)。
权限限制:
仅支持使用DataWorks Serverless资源组在DataWorks运行Lindorm任务。
仅拥有运维和空间管理员角色的空间成员,或拥有AliyunDataWorksFullAccess权限的空间成员可创建计算资源。查看成员角色或授权详情请参见添加空间成员并管理成员角色权限。
进入计算资源列表页
前往DataWorks工作空间列表页,在顶部切换至目标地域,找到需要创建计算资源的工作空间。单击工作空间名称或操作列的详情,进入工作空间详情页。
在左侧导航栏单击计算资源,按需选择计算资源类型,进入计算资源列表页。
绑定Lindorm计算资源
在计算资源列表页,您可参考以下参数信息配置绑定Lindorm计算资源。
选择绑定计算资源类型。
单击绑定计算资源或新建计算资源,进入绑定计算资源页面。
在绑定计算资源页面选择计算资源类型为Lindorm,进入绑定Lindorm计算资源配置页面。
配置Lindorm计算资源。
在绑定Lindorm计算资源配置页面,您可根据下表内容进行相应配置。
配置区域
参数
配置说明
基本信息
配置模式
仅支持阿里云实例模式。
实例
此处下拉展示您当前地域的Lindorm实例,请从中选择需要绑定至DataWorks的Lindorm实例。
计算引擎类型
默认为Spark引擎。
Lindorm资源组
请选择DataWorks上运行Lindorm任务默认使用的Lindorm计算资源组,默认为
default
。数据库名称
请选择DataWorks上使用该Lindorm计算资源时默认连接的数据库,默认连接
default
数据库。用户名
请填写DataWorks使用该Lindorm计算资源时用于身份认证的用户名。您可以在Lindorm管理控制台中找到所创建的Lindorm实例,单击实例名称,在左侧的数据库连接中获取用户名信息。
密码
请填写DataWorks使用该Lindorm计算资源时用于身份认证的密码。您可以在Lindorm管理控制台中找到所创建的Lindorm实例,单击实例名称,在左侧的数据库连接中获取用户密码信息。
连接配置
连通状态
在连接配置区域,请选择DataWorks用于运行Lindorm任务的Serverless资源组,并单击测试连通性以确保资源组可以正常访问您的Lindorm实例。详情请参见网络连通方案。
单击确认,完成Lindorm计算资源配置。
(可选)配置Spark全局参数
在DataWorks中,您可以按工作空间粒度为各模块指定SPARK参数,之后这些模块将默认使用相应的SPARK参数执行任务。您可参考设置全局Spark参数来自定义全局的SPARK参数,并设置全局参数的优先级是否高于特定模块(如数据开发、数据分析和运维中心)内的局部参数。以下将为您介绍如何设置全局SPARK参数。
背景信息
Apache Spark是一个用于大规模数据分析的引擎。在DataWorks中,您可以按以下方式配置调度节点运行时使用的SPARK参数:
方式一:您可以配置全局SPARK参数,以设置工作空间级别下某个DataWorks功能模块在运行EMR任务时所使用的SPARK参数。同时,您可以定义这些全局配置的SPARK参数优先级是否高于特定模块内配置的SPARK参数。详情请参见配置SPARK全局参数。
方式二:在数据开发模块中,您可以在节点编辑页面为单个节点任务设置具体的SPARK属性。其他产品模块目前暂不支持在模块内单独设置SPARK属性。
权限控制
仅以下角色可配置全局SPARK参数:
阿里云主账号。
拥有
AliyunDataWorksFullAccess
权限的子账号(RAM用户)或RAM角色。拥有空间管理员角色的子账号(RAM用户)。
查看SPARK全局参数
进入计算资源列表页,找到您所绑定的Lindorm计算资源。
单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。
配置SPARK全局参数
您可通过以下步骤配置SPARK全局参数。配置Lindorm计算资源的SPARK参数,详情请参见作业配置说明。
进入计算资源列表页,找到您所绑定的Lindorm计算资源。
单击SPARK参数,进入SPARK参数配置栏,即可查看SPARK全局参数配置信息。
设置全局SPARK参数。
单击SPARK参数页面右上角的编辑SPARK参数,配置各模块的全局SPARK参数及优先级。
说明该配置为工作空间全局配置,请在配置前确认所使用的工作空间是否正确。
参数
步骤
Spark属性
配置各模块运行Lindorm任务时使用的Spark属性。可参见作业配置说明。
单击下方的添加按钮,输入Spark属性名称和对应的Spark属性值。
说明如需开启血缘和产出信息的采集,您可进行以下配置:
输入Spark属性名称为
spark.sql.queryExecutionListeners
。Spark属性值为
com.aliyun.dataworks.meta.lineage.LineageListener
。
更多Spark属性参数设置,请参见作业配置说明。
全局配置是否优先
勾选后,表示全局配置将比产品模块内配置优先生效。此时将按照全局配置的SPARK属性来统一运行任务。
全局配置:表示在 对应的Lindorm计算资源的SPARK参数页面配置的Spark属性。
目前仅支持对数据开发(Data Studio)、运维中心模块设置全局SPARK参数。
产品模块内配置:
数据开发(DataStudio):对于Lindorm Spark、Lindorm Spark SQL节点,可在节点编辑页面的配置项或节点编辑页面,设置单个节点任务的SPARK属性。
其他产品模块:暂不支持在模块内单独设置SPARK属性。
单击确认按钮,保存您所配置的全局SPARK参数。
后续操作
配置完Lindorm计算资源后,您可以在数据开发节点任务中使用该计算资源进行节点任务开发,详情请参见Lindorm Spark节点、Lindorm Spark SQL节点。
在配置SPARK全局参数时,请开启Lindorm血缘和产出信息的采集功能。创建并运行元数据采集器后,您可以通过数据地图查看和管理Lindorm数据地图查看和管理Lindorm的元数据信息。