Spark2.4.5使用-云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

本文介绍使用Spark2.4.5版本时所需的专用配置信息。

重要

建议使用Spark 3以上版本。

提交任务

使用Spark客户端提交任务时，添加以下参数指定版本，客户端下载。

# 用于开启kube模式和eventlog
spark.hadoop.odps.kube.mode=true
spark.hadoop.odps.cupid.data.proxy.enable=true
spark.hadoop.odps.cupid.fuxi.shuffle.enable=true
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
spark.hadoop.odps.spark.libs.public.enable=true
spark.eventLog.enabled=true
spark.eventLog.dir=/workdir/eventlog/

# 用于读写Maxcompute
spark.sql.catalogImplementation=hive
spark.sql.sources.default=hive

使用DataWorks节点提交任务时，添加以下参数指定版本。
```
spark.hadoop.odps.spark.version=spark-2.4.5-odps0.47.0
```

参数配置

参数名	取值	说明
`spark.sql.catalogImplementation`	配置值为`hive`
`spark.sql.sources.default`	配置值为`hive`
`spark.sql.odps.columnarReaderBatchSize`	默认值为`4096`	向量化读每个batch包含的行数。
`spark.sql.odps.enableVectorizedReader`	默认值为`true`	开启向量化读。
`spark.sql.odps.enableVectorizedWriter`	默认值为`true`	开启向量化写。
`spark.sql.odps.split.size`	默认值为`256m`	该参数用于调节读MaxCompute表的并发度，默认每个分区为256 MB。
`spark.hadoop.odps.cupid.vnet.capacity`	默认值为`256`	该参数用于设置最大的Instance数量，建议配置值为`spark.executor.instances + 2`，否则可能会遇到`create virtual net failed`错误。该参数需要设置到`spark-defaults.conf`或`DataWorks`配置项中。