使用DataWorks Spark-云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

本文介绍如何通过DataWorks（大数据开发治理平台）创建及配置MaxCompute Spark节点，包括资源上传、节点配置和参数传递等操作。

使用流程

在DataWorks中创建一个MaxCompute Spark节点。

在最左侧导航栏单击数据开发图标，单击新建节点，MaxCompute > MaxCompute Spark。
选择上一步骤上传的jar资源并按照spark-defaults.conf中的配置填写DataWorks页面上的配置项。Main Class和参数是主类和对应的参数，单击发布。
发布成功后，单击去运维。在新的页面，单击新建节点操作列的测试。

DataWorks中的MaxCompute Spark节点配置本质上对应于spark-submit命令的参数和选项。具体对应关系如下表所示：

对应于spark-submit命令的--conf，即上表第二条。

accessid，accesskey，projectname，endpoint无需配置，默认是生产账号（支持显式配置，显式配置后将覆盖默认值）。
除此之外，需要将spark-default.conf中的配置逐条加到DataWorks的配置项中。

DataWorks Spark节点支持传递参数（如bizdate），操作步骤如下：

不同语言获取参数的方式：

在DataWorks中添加任务需要的资源，这些资源在任务运行时会被上传到工作目录下。资源可能包括：

jar资源/python资源：对应于spark-submit命令的--jars和--py-files参数。
file资源：对应于spark-submit命令的--files参数。
archive资源：对应于spark-submit命令的--archives参数。archive资源会默认被解压，解压后的文件名等同于资源名去掉后缀。例如上传的资源名是mnist.zip，则解压名为mnist。

DataWorks中上传资源限制最大为50 MB。如果需要使用更大的资源，需要将该资源通过MaxCompute客户端（odpscmd）上传为MaxCompute资源，然后将该资源添加到数据开发中。