Spark3.4.2配置

更新时间:
复制为 MD 格式

本文介绍使用Spark3.4.2&3.5.2版本时所需的专用配置信息。

提交任务

使用集群模式

  • 使用Spark客户端提交任务。

    添加以下参数指定版本,客户端下载spark3.4.2下载spark-3.5.2

    # 用于开启kube模式和eventlog
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    
    ## for spark 3.4.2
    spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0
    
    ## for spark 3.5.2
    spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # 用于读写Maxcompute
    spark.sql.defaultCatalog=odps
    spark.sql.catalog.odps=org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
    spark.sql.sources.partitionOverwriteMode=dynamic
    spark.sql.extensions=org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions
  • 使用DataWorks节点提交任务,添加以下参数指定版本。

    ## for spark 3.4.2
    spark.hadoop.odps.spark.version=spark-3.4.2-odps0.48.0
    
    ## for spark 3.5.2
    spark.hadoop.odps.spark.version=spark-3.5.2-odps0.49.0

参数配置

参数名

取值

说明

spark.sql.defaultCatalog

配置值为odps

spark.sql.catalog.odps

配置值为org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog

spark.sql.sources.partitionOverwriteMode

配置值为dynamic

spark.sql.extensions

配置值为org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions

spark.sql.catalog.odps.enableNamespaceSchema

默认值为false

如果MaxCompute项目开启Schema级语法开关,需要设置为true。

spark.sql.catalog.odps.enableVectorizedReader

默认值为true

开启向量化读。

spark.sql.catalog.odps.enableVectorizedWriter

默认值为true

开启向量化写。

spark.sql.catalog.odps.splitSizeInMB

默认值为256

该参数用于调节读MaxCompute表的并发度,默认每个分区为256MB。

spark.sql.catalog.odps.tableReadProvider

默认值为v1 

使用local模式时需要设置为tunnel。

spark.sql.catalog.odps.tableWriteProvider

默认值为v1 

使用local模式时需要设置为tunnel。

spark.hadoop.odps.spark.alinux3.enabled

默认值为false

集群模式下使用alinux3 base镜像,Python 3.11版本。

spark.hadoop.odps.native.engine.enable

默认值为false

集群模式下使用Native Engine加速计算,Native Engine默认使用alinux3 base镜像。