如何配置Spark类型作业_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

本文介绍如何配置Spark类型的作业。

前提条件

已创建好项目，详情请参见项目管理。

操作步骤

进入数据开发的项目列表页面。
1. 通过阿里云账号登录阿里云E-MapReduce控制台。
2. 在顶部菜单栏处，根据实际情况选择地域和资源组。
3. 单击上方的数据开发页签。
单击待编辑项目所在行的作业编辑。
新建Spark类型作业。
1. 在页面左侧，在需要操作的文件夹上单击右键，选择新建作业。
2. 在新建作业对话框中，输入作业名称和作业描述，从作业类型下拉列表中选择Spark作业类型。
  表示创建的作业是一个Spark作业。这种类型的作业，实际是通过以下方式提交的Spark作业运行。
```
spark-submit [options] --class [MainClass] xxx.jar args
```
3. 单击确定。
编辑作业内容。
1. 在作业内容中，填写提交该作业需要提供的命令行参数。
  只需要填写spark-submit之后的参数即可。
  以下分别展示如何填写创建Spark作业和Pyspark作业的参数：
  - 创建Spark作业。
    新建一个Spark作业，作业名称为Wordcount，应用参数填写示例如下：
    
    在命令行下提交完整的命令。
    spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
    
    在E-MapReduce作业的作业内容输入框中填写如下命令。
    --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32
    
    注意 JAR包保存在OSS中，引用这个JAR包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以单击下方的+插入OSS路径，文件前缀选择OSSREF，从文件路径中进行浏览和选择，系统会自动补齐OSS上Spark脚本的路径。
  - 创建Pyspark作业。
    E-MapReduce除了支持Scala或者Java类型作业外，还支持Python类型Spark作业。新建一个Python脚本的Spark作业，作业名称为Python-Kmeans，应用参数填写示例如下：
    --master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1 ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32
    
    注意
    
    支持Python脚本资源的引用，同样使用ossref协议。
    
    Pyspark不支持通过作业方式安装Python工具包。
2. 单击保存，作业内容编辑完成。