配置Lindorm Spark节点_数据管理 DMS-阿里云帮助中心

任务编排的Lindorm Spark节点可以通过Lindorm计算引擎高效地完成分布式计算任务，满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求，同时可以方便地读取Lindorm宽表引擎数据，与OSS上的数据进行联合分析。

前提条件

您使用的是阿里云账号或拥有AliyunLindormFullAccess权限策略的RAM用户。
Lindorm实例已开通计算引擎。具体操作，请参见开通与变配。
说明
建议您在Lindorm管理控制台开通Lindorm实例的History Server功能，方便查看任务历史运行日志。

Lindorm计算引擎是一款基于云原生多模数据库Lindorm核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务。关于Lindorm计算引擎的更多信息，请参见引擎简介。

Lindorm实例的计算引擎按照计算资源实际使用量收费，不使用不计费。具体信息，请参见计费方式。

登录数据管理DMS 5.0。
在顶部菜单栏中，选择Data+AI > 数据开发 > 任务编排。
说明
若您使用的是极简模式的控制台，请单击控制台左上角的图标，选择全部功能 > Data+AI > 数据开发 > 任务编排。
单击目标任务流名称，进入任务流详情页面。
说明
如果您需要新增任务流，请参见新增任务流。
在画布左侧任务类型列表中，拖拽Lindorm Spark节点到画布空白区域。
双击Lindorm Spark节点。
在基础配置区域，配置节点基础信息。
配置项
说明
地域
选择Lindorm实例所处地域。
Lindorm实例
选择Lindorm实例。
任务类型
选择任务类型：
JAR
Python
SQL

在作业配置区域，配置JSON请求参数。

作业的基本参数配置：

参数	说明	示例值
mainResource	作业文件（.jar、.py、.sql）在OSS上的存储路径。	oss://bucket/path/spark-examples.jar
mainClass	.jar作业文件中main函数的入口类路径。说明如果任务类型为Python或SQL，不需要配置该参数。	com.aliyun.ldspark.SparkPi
args（非必填）	传入mainClass参数。说明如果任务类型为SQL，不需要配置该参数。	["arg1", "arg2.1, arg2.2"]
configs	作业的其他相关配置。	{"spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"}

configs参数配置：

参数	说明	示例值
spark.hadoop.fs.oss.endpoint	作业文件所在OSS的Endpoint。说明查看OSS的Endpoint，请参见OSS地域和访问域名。	oss-cn-beijing-internal.aliyuncs.com
spark.hadoop.fs.oss.accessKeyId	云账号AccessKey中用于标识用户的AccessKey ID。说明获取AccessKey的方法，请参见创建AccessKey。	*******
spark.hadoop.fs.oss.accessKeySecret	云账号AccessKey中用于验证用户的密钥AccessKey Secret。说明获取AccessKey的方法，请参见创建AccessKey。	*******
spark.hadoop.fs.oss.impl	访问OSS的类。	固定值：org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem
spark.sql.shuffle.partitions	设置Spark SQL引擎的Shuffle默认分区数。	20

（可选）访问Lindorm实例的宽表引擎，需要在configs参数中配置以下参数：

参数	说明	示例值
spark.sql.catalog.Lindorm_table	访问Lindorm宽表引擎的实现类。说明如果任务类型为SQL，不需要配置该参数。	固定值：com.alibaba.Lindorm.ldspark.datasources.v2.LindormCatalog
spark.sql.catalog.Lindorm_table.url	访问Lindorm宽表引擎的专有网络访问地址。说明如果任务类型为SQL，不需要配置该参数。	ld-bp1z350********-proxy-Lindorm.Lindorm.rds.aliyuncs.com:30020
spark.sql.catalog.Lindorm_table.username	访问Lindorm宽表引擎的用户名。	默认用户名为root。
spark.sql.catalog.Lindorm_table.password	访问Lindorm宽表引擎的密码。	默认密码为root。

示例：

{
"spark.sql.catalog.Lindorm_table.username": "my_user",
"spark.sql.catalog.Lindorm_table.password": "my_password",
}

说明

参数	说明	示例值
spark.archives	运行环境路径。	oss://OSS_BUCKET/pyspark_conda_env.tar.gz
spark.submit.pyFiles	python文件路径。	oss://OSS_BUCKET/your_project.zip