Spark2.4.5使用

更新时间:
复制为 MD 格式

本文介绍使用Spark2.4.5版本时所需的专用配置信息。

重要

建议使用Spark 3以上版本。

提交任务

  • 使用Spark客户端提交任务时,添加以下参数指定版本,客户端下载

    # 用于开启kube模式和eventlog
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # 用于读写Maxcompute
    spark.sql.catalogImplementation=hive
    spark.sql.sources.default=hive
  • 使用DataWorks节点提交任务时,添加以下参数指定版本。

    spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0

参数配置

参数名

取值

说明

spark.sql.catalogImplementation

配置值为hive

spark.sql.sources.default

配置值为hive

spark.sql.odps.columnarReaderBatchSize

默认值为4096

向量化读每个batch包含的行数。

spark.sql.odps.enableVectorizedReader

默认值为true

开启向量化读。

spark.sql.odps.enableVectorizedWriter

默认值为true

开启向量化写。

spark.sql.odps.split.size

默认值为256m

该参数用于调节读MaxCompute表的并发度,默认每个分区为256 MB。

spark.hadoop.odps.cupid.vnet.capacity

默认值为256

  • 该参数用于设置最大的Instance数量,建议配置值为spark.executor.instances + 2,否则可能会遇到create virtual net failed错误。

  • 该参数需要设置到spark-defaults.confDataWorks配置项中。