任务编排的Lindorm Spark节点可以通过Lindorm计算引擎高效地完成分布式计算任务,满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求,同时可以方便地读取Lindorm宽表引擎数据,与OSS上的数据进行联合分析。
前提条件
您使用的是阿里云账号或拥有AliyunLindormFullAccess权限策略的RAM用户。
Lindorm实例已开通计算引擎。具体操作,请参见开通与变配。
说明建议您在Lindorm管理控制台开通Lindorm实例的History Server功能,方便查看任务历史运行日志。
背景信息
Lindorm计算引擎是一款基于云原生多模数据库Lindorm核心能力实现的数据库内高性能、低成本、稳定可靠的分布式计算服务。关于Lindorm计算引擎的更多信息,请参见引擎简介。
费用说明
Lindorm实例的计算引擎按照计算资源实际使用量收费,不使用不计费。具体信息,请参见计费方式。
操作步骤
- 登录数据管理DMS 5.0。
在顶部菜单栏中,选择 。
说明若您使用的是极简模式的控制台,请单击控制台左上角的图标,选择
。单击目标任务流名称,进入任务流详情页面。
说明如果您需要新增任务流,请参见新增任务流。
在画布左侧任务类型列表中,拖拽Lindorm Spark节点到画布空白区域。
双击Lindorm Spark节点。
在基础配置区域,配置节点基础信息。
配置项
说明
地域
选择Lindorm实例所处地域。
Lindorm实例
选择Lindorm实例。
任务类型
选择任务类型:
JAR
Python
SQL
在作业配置区域,配置JSON请求参数。
作业的基本参数配置:
参数
说明
示例值
mainResource
作业文件(.jar、.py、.sql)在OSS上的存储路径。
oss://bucket/path/spark-examples.jar
mainClass
.jar作业文件中main函数的入口类路径。
说明如果任务类型为Python或SQL,不需要配置该参数。
com.aliyun.ldspark.SparkPi
args(非必填)
传入mainClass参数。
说明如果任务类型为SQL,不需要配置该参数。
["arg1", "arg2.1, arg2.2"]
configs
作业的其他相关配置。
{"spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"}
configs参数配置:
参数
说明
示例值
spark.hadoop.fs.oss.endpoint
作业文件所在OSS的Endpoint。
说明查看OSS的Endpoint,请参见访问域名和数据中心。
oss-cn-beijing-internal.aliyuncs.com
spark.hadoop.fs.oss.accessKeyId
云账号AccessKey中用于标识用户的AccessKey ID。
说明获取AccessKey的方法,请参见创建AccessKey。
LTAI5tLJePBPPr8ZGDu8****
spark.hadoop.fs.oss.accessKeySecret
云账号AccessKey中用于验证用户的密钥AccessKey Secret。
说明获取AccessKey的方法,请参见创建AccessKey。
jHCMeBseYbTTq92xYikcFRIQZ2****
spark.hadoop.fs.oss.impl
访问OSS的类。
固定值:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem
spark.sql.shuffle.partitions
设置Spark SQL引擎的Shuffle默认分区数。
20
如果任务类型为Python,需要在configs参数中配置Python作业环境参数:
参数
说明
示例值
spark.archives
运行环境路径。
oss://OSS_BUCKET/pyspark_conda_env.tar.gz
spark.submit.pyFiles
python文件路径。
oss://OSS_BUCKET/your_project.zip
示例:
{ "spark.archives":"oss://OSS_BUCKET/pyspark_conda_env.tar.gz", "spark.submit.pyFiles":"oss://OSS_BUCKET/your_project.zip" }
(可选)访问Lindorm实例的宽表引擎,需要在configs参数中配置以下参数:
参数
说明
示例值
spark.sql.catalog.Lindorm_table
访问Lindorm宽表引擎的实现类。
说明如果任务类型为SQL,不需要配置该参数。
固定值:com.alibaba.Lindorm.ldspark.datasources.v2.LindormCatalog
spark.sql.catalog.Lindorm_table.url
访问Lindorm宽表引擎的专有网络访问地址。
说明如果任务类型为SQL,不需要配置该参数。
ld-bp1z3506imz2f****-proxy-Lindorm.Lindorm.rds.aliyuncs.com:30020
spark.sql.catalog.Lindorm_table.username
访问Lindorm宽表引擎的用户名。
默认用户名为root。
spark.sql.catalog.Lindorm_table.password
访问Lindorm宽表引擎的密码。
默认密码为root。
示例:
{ "spark.sql.catalog.Lindorm_table.username": "my_user", "spark.sql.catalog.Lindorm_table.password": "my_password", }
说明关于JAR任务类型,更多信息,请参见JAR作业开发实践。
关于Python任务类型,更多信息,请参见Python作业开发实践。
在页面上方,单击试运行。
如果执行日志的最后一行出现
status SUCCEEDED
,表明任务试运行成功。如果执行日志的最后一行出现
status FAILED
,表明任务试运行失败。单击运行日志,查看执行失败原因,修改配置后重新尝试。
说明运行任务后,您可以在Lindorm管理控制台中查看计算引擎作业运行日志。具体操作,请参见查看作业运行状态。