Spark3.1.1使用-云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

本文介绍使用Spark3.1.1版本时所需的专用配置信息。

提交任务

使用Spark客户端提交任务，添加以下参数指定版本，客户端下载。

# 用于开启kube模式和eventlog
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-3.1.1-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# 用于读写MaxCompute
spark.sql.defaultCatalog = odps
spark.sql.catalog.odps = org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
spark.sql.sources.partitionOverwriteMode = dynamic
spark.sql.extensions = org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

使用集群模式运行PySpark作业，需添加以下参数使用Python3。

spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3

使用DataWorks节点提交任务，直接选择Spark 3.x即可。

参数配置

参数名	取值	说明
`spark.sql.defaultCatalog`	配置值为`odps`
`spark.sql.catalog.odps`	配置值为`org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog`
`spark.sql.sources.partitionOverwriteMode`	配置值为`dynamic`
`spark.sql.extensions`	配置值为`org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions`
`spark.sql.catalog.odps.enableNamespaceSchema`	默认值为`false`	如果MaxCompute项目开启Schema级语法开关，需要设置为true。
`spark.sql.catalog.odps.enableVectorizedReader`	默认值为`true`	开启向量化读。
`spark.sql.catalog.odps.enableVectorizedWriter`	默认值为`true`	开启向量化写。
`spark.sql.catalog.odps.splitSizeInMB`	默认值为`256`	该参数用于调节读MaxCompute表的并发度，默认每个分区为256MB。