Spark Conf自定义参数列表

Serverless Spark支持多个内置特有参数,您可以查阅这些参数的名称、描述及其使用场景,以便灵活配置任务运行环境并优化任务执行。

参数名

参数描述

适用场景

spark.emr.serverless.user.defined.jars

将上传的JAR包添加至Serverless SparkDriverExecutorClassPath中。

  • 支持的引擎版本:

    • esr-4.x:esr-4.1.0及之后版本。

    • esr-3.x:esr-3.1.0及之后版本。

    • esr-2.x:esr-2.5.0及之后版本。

  • 上传方式:

    • esr-4.2.0、esr-3.2.0esr-2.6.0及之后版本:

      • 上传至Serverless Spark文件管理,详情请参见管理文件

        您可以在托管文件目录页签,单击目标文件操作列中的复制地址,以获取指定存储空间的地址。

      • 上传至阿里云OSS,上传操作可以参见简单上传

        路径格式为oss://path/to/file1.jar,oss://path/to/file2.jar

    • esr-4.2.0、esr-3.2.0esr-2.6.0之前版本:仅支持上传至阿里云OSS,上传操作可以参见简单上传

      路径格式为oss://path/to/file1.jar,oss://path/to/file2.jar

通过Spark-Submit工具、批任务以及Airflow Serverless Spark Operator提交Spark任务时,或在创建会话资源时,可将存储于OSS上的自定义JAR包添加至Spark DriverExecutor。

spark.emr.serverless.fusion

设置由Livy启动的会话或批处理任务是否启用Fusion。取值如下:

  • false(默认):关闭。

  • true:开启。

支持通过任务或会话的Spark配置来决定是否启用Fusion。

spark.emr.serverless.environmentId

运行环境ID,用于配置计算资源使用的运行环境。

通过AirflowSpark-Submit工具提交Serverless Spark任务时,可以指定运行环境,默认安装第三方依赖库。

spark.emr.serverless.network.service.name

网络连接名称,用于配置计算资源以实现与其他VPC内数据源的网络互通。

在提交Serverless Spark任务时,可以添加网络连接,以支持访问其他虚拟私有云(VPC)下的数据源。