本文介绍Spark客户端各个版本的通用参数配置。
MaxCompute账号参数配置
参数 | 说明 |
| MaxCompute项目名称。 若使用DataWorks提交任务,使用默认值即可,无需配置。 |
| 具备目标MaxCompute项目访问权限的AccessKey ID,可以进入AccessKey管理页面获取AccessKey ID。 若使用DataWorks提交任务,使用默认值即可,无需配置。 |
| AccessKey ID对应的AccessKey Secret。 若使用DataWorks提交任务,使用默认值即可,无需配置。 |
| MaxCompute项目STS Token。 若使用DataWorks提交任务,使用默认值即可,无需配置。 |
|
|
| MaxCompute所属Region的云产品互联 Endpoint。 例如,杭州云产品互联Endpoint为 |
MaxCompute Spark作业提交、版本及日志等配置
参数 | 说明 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Spark资源申请参数配置
参数 | 说明 |
| 默认值1。Spark 应用程序在集群中启动的Executor进程总数。 |
| 默认值1。每个Executor进程可使用的CPU核心数。 |
| 默认值 2g。每个Executor进程的内存总量(包括堆内和堆外内存)。 |
| 默认值 1。Driver进程使用的CPU核心数。 |
| 默认值 2g。Driver进程的内存总量。 |
|
|
|
|
|
|
MaxCompute读写相关配置
以下以spark.sql.catalog.odps开头的配置仅在 3.x 版本中才可以使用。
参数 | 说明 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MaxCompute数据互通配置
spark.hadoop.odps.cupid.resources
该配置项必须要配置在spark-default.conf中或DataWorks的配置项中才能生效,不能写在代码中。
参数说明:
指定任务运行所需要的MaxCompute资源。格式为
<projectname>.<resourcename>,可指定多个,通过半角逗号(,)分隔。指定的资源将被下载到Driver和Executor的当前工作目录(
/workdir),资源下载到工作目录后默认的名字是<projectname>.<resourcename>。压缩包资源会被自动解压,顶层目录名字与原压缩包名字保持一致。例如资源名为examples.tar.gz且未重命名,其展开路径为/workdir/examples.tar.gz/sub/...。如果重命名为examples,则展开路径为/workdir/examples/sub/...,具体路径取决于包名字和包内部的目录结构。配置示例:
spark.hadoop.odps.cupid.resources = public.python-python-2.7-ucs4.zip,public.myjar.jar。文件重命名:配置时通过
<projectname>.<resourcename>:<newresourcename>方式重命名。重命名示例:
spark.hadoop.odps.cupid.resources = public.myjar.jar:myjar.jar。
MaxCompute其他配置
参数 | 说明 |
| 用于配置 VPC,详细内容请参考访问阿里云VPC |
| 无默认值。如果在Spark集群模式下,访问云产品互联站点网络不通,请配置该参数(可以参考访问阿里云OSS)。 |
|
|
|
|
|
|
|
|
|
|