任务编排的Lindorm Spark节点可以通过Lindorm计算引擎高效地完成分布式计算任务,满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求,同时可以方便地读取Lindorm宽表引擎数据,与OSS上的数据进行联合分析。
前提条件
- 您使用的是阿里云账号或拥有AliyunLindormFullAccess权限策略的RAM用户。
- Lindorm实例已开通计算引擎。具体操作,请参见开通与变配。
说明 建议您在Lindorm管理控制台开通Lindorm实例的History Server功能,方便查看任务历史运行日志。
背景信息
费用说明
Lindorm实例的计算引擎按照计算资源实际使用量收费,不使用不计费。具体信息,请参见计费方式。
操作步骤
- 登录数据管理DMS 5.0。
- 在顶部菜单栏中,选择集成与开发(DTS) > 数据开发 > 任务编排。
- 单击目标任务流名称,进入任务流详情页面。说明 如果您需要新增任务流,请参见新增任务流。
- 在画布左侧任务类型列表中,拖拽Lindorm Spark节点到画布空白区域。
- 双击Lindorm Spark节点。
- 在基础配置区域,配置节点基础信息。
配置项 说明 地域 选择Lindorm实例所处地域。 Lindorm实例 选择Lindorm实例。 任务类型 选择任务类型: - JAR
- Python
- SQL
- 在作业配置区域,配置JSON请求参数。
- 作业的基本参数配置:
参数 说明 示例值 mainResource 作业文件(.jar、.py、.sql)在OSS上的存储路径。 oss://bucket/path/spark-examples.jar mainClass .jar作业文件中main函数的入口类路径。 说明 如果任务类型为Python或SQL,不需要配置该参数。com.aliyun.ldspark.SparkPi args(非必填) 传入mainClass参数。 说明 如果任务类型为SQL,不需要配置该参数。["arg1", "arg2.1, arg2.2"] configs 作业的其他相关配置。 {"spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"} - configs参数配置:
参数 说明 示例值 spark.hadoop.fs.oss.endpoint 作业文件所在OSS的Endpoint。 说明 查看OSS的Endpoint,请参见访问域名和数据中心。oss-cn-beijing-internal.aliyuncs.com spark.hadoop.fs.oss.accessKeyId 云账号AccessKey中用于标识用户的AccessKey ID。 说明 获取AccessKey的方法,请参见获取AccessKey。LTAI5tLJePBPPr8ZGDu8**** spark.hadoop.fs.oss.accessKeySecret 云账号AccessKey中用于验证用户的密钥AccessKey Secret。 说明 获取AccessKey的方法,请参见获取AccessKey。jHCMeBseYbTTq92xYikcFRIQZ2**** spark.hadoop.fs.oss.impl 访问OSS的类。 固定值:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem spark.sql.shuffle.partitions 设置Spark SQL引擎的Shuffle默认分区数。 20 - 如果任务类型为Python,需要在configs参数中配置Python作业环境参数:
参数 说明 示例值 spark.archives 运行环境路径。 oss://OSS_BUCKET/pyspark_conda_env.tar.gz spark.submit.pyFiles python文件路径。 oss://OSS_BUCKET/your_project.zip 示例:{ "spark.archives":"oss://OSS_BUCKET/pyspark_conda_env.tar.gz", "spark.submit.pyFiles":"oss://OSS_BUCKET/your_project.zip" }
- (可选)访问Lindorm实例的宽表引擎,需要在configs参数中配置以下参数:
参数 说明 示例值 spark.sql.catalog.Lindorm_table 访问Lindorm宽表引擎的实现类。 说明 如果任务类型为SQL,不需要配置该参数。固定值:com.alibaba.Lindorm.ldspark.datasources.v2.LindormCatalog spark.sql.catalog.Lindorm_table.url 访问Lindorm宽表引擎的专有网络访问地址。 说明 如果任务类型为SQL,不需要配置该参数。ld-bp1z3506imz2f****-proxy-Lindorm.Lindorm.rds.aliyuncs.com:30020 spark.sql.catalog.Lindorm_table.username 访问Lindorm宽表引擎的用户名。 默认用户名为root。 spark.sql.catalog.Lindorm_table.password 访问Lindorm宽表引擎的密码。 默认密码为root。 示例:{ "spark.sql.catalog.Lindorm_table.username": "my_user", "spark.sql.catalog.Lindorm_table.password": "my_password", }
说明- 关于JAR任务类型,更多信息,请参见Lindorm计算引擎JAR作业开发实践。
- 关于Python任务类型,更多信息,请参见Lindorm计算引擎Python作业开发实践。
- 作业的基本参数配置:
- 在页面上方,单击试运行。
- 如果执行日志的最后一行出现
status SUCCEEDED
,表明任务试运行成功。 - 如果执行日志的最后一行出现
status FAILED
,表明任务试运行失败。单击运行日志,查看执行失败原因,修改配置后重新尝试。
说明 运行任务后,您可以在Lindorm管理控制台中查看计算引擎作业运行日志。具体操作,请参见查看计算引擎作业运行日志。 - 如果执行日志的最后一行出现