Spark2.3.0使用

更新时间:
复制为 MD 格式

本文介绍使用Spark2.3.0版本时所需的专用配置信息。

重要

建议使用Spark 3以上版本。

提交任务

  • 使用Spark客户端提交任务时,添加以下参数指定版本,客户端下载

    # 用于开启kube模式和eventlog
    spark.hadoop.odps.kube.mode=true
    spark.hadoop.odps.cupid.data.proxy.enable=true
    spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
    spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0
    spark.hadoop.odps.spark.libs.public.enable=true
    spark.eventLog.enabled=true
    spark.eventLog.dir=/workdir/eventlog/
    
    # 用于读写Maxcompute
    spark.sql.catalogImplementation=odps
  • 使用DataWorks节点提交任务时,直接选择Spark 2.x然后添加以下参数指定版本。

    spark.hadoop.odps.spark.version=spark-2.3.0-odps0.47.0

参数配置

参数名

取值

说明

spark.sql.catalogImplementation

odps

spark.hadoop.odps.cupid.vectorization.enable

建议设置为true

当设置为true时,会使用批读写优化。

spark.hadoop.odps.input.split.size

默认为256

该参数用于调节读MaxCompute表的并发度,默认每个分区为256MB。