Spark3.4.2配置-云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

本文介绍使用Spark3.4.2&3.5.2版本时所需的专用配置信息。

提交任务

使用集群模式

使用Spark客户端提交任务。

添加以下参数指定版本，客户端下载spark3.4.2或下载spark-3.5.2。

# 用于开启kube模式和eventlog
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true

## for spark 3.4.2
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## for spark 3.5.2
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# 用于读写Maxcompute
spark.sql.defaultCatalog=odps
spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

使用DataWorks节点提交任务，添加以下参数指定版本。

## for spark 3.4.2
spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0

## for spark 3.5.2
spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0

参数配置

参数名	取值	说明
`spark.sql.defaultCatalog`	配置值为`odps`
`spark.sql.catalog.odps`	配置值为`org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog`
`spark.sql.sources.partitionOverwriteMode`	配置值为`dynamic`
`spark.sql.extensions`	配置值为`org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions`
`spark.sql.catalog.odps.enableNamespaceSchema`	默认值为`false`	如果MaxCompute项目开启Schema级语法开关，需要设置为true。
`spark.sql.catalog.odps.enableVectorizedReader`	默认值为`true`	开启向量化读。
`spark.sql.catalog.odps.enableVectorizedWriter`	默认值为`true`	开启向量化写。
`spark.sql.catalog.odps.splitSizeInMB`	默认值为`256`	该参数用于调节读MaxCompute表的并发度，默认每个分区为256MB。
`spark.sql.catalog.odps.tableReadProvider`	默认值为`v1`	使用`local`模式时需要设置为tunnel。
`spark.sql.catalog.odps.tableWriteProvider`	默认值为`v1`	使用`local`模式时需要设置为tunnel。
`spark.hadoop.odps.spark.alinux3.enabled`	默认值为`false`	集群模式下使用alinux3 base镜像，Python 3.11版本。
`spark.hadoop.odps.native.engine.enable`	默认值为`false`	集群模式下使用Native Engine加速计算，Native Engine默认使用alinux3 base镜像。