本文介绍使用Spark3.4.2&3.5.2版本时所需的专用配置信息。
提交任务
使用集群模式
使用Spark客户端提交任务。
添加以下参数指定版本,客户端下载spark3.4.2或下载spark-3.5.2。
# 用于开启kube模式和eventlog spark.hadoop.odps.kube.mode=true spark.hadoop.odps.cupid.data.proxy.enable=true spark.hadoop.odps.cupid.fuxi.shuffle.enable=true ## for spark 3.4.2 spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## for spark 3.5.2 spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0 spark.hadoop.odps.spark.libs.public.enable=true spark.eventLog.enabled=true spark.eventLog.dir=/workdir/eventlog/ # 用于读写Maxcompute spark.sql.defaultCatalog=odps spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog spark.sql.sources.partitionOverwriteMode=dynamic spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions使用DataWorks节点提交任务,添加以下参数指定版本。
## for spark 3.4.2 spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0 ## for spark 3.5.2 spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
参数配置
参数名 | 取值 | 说明 |
| 配置值为 | |
| 配置值为 | |
| 配置值为 | |
| 配置值为 | |
| 默认值为 | 如果MaxCompute项目开启Schema级语法开关,需要设置为true。 |
| 默认值为 | 开启向量化读。 |
| 默认值为 | 开启向量化写。 |
| 默认值为 | 该参数用于调节读MaxCompute表的并发度,默认每个分区为256MB。 |
| 默认值为 | 使用 |
| 默认值为 | 使用 |
| 默认值为 | 集群模式下使用alinux3 base镜像,Python 3.11版本。 |
| 默认值为 | 集群模式下使用Native Engine加速计算,Native Engine默认使用alinux3 base镜像。 |