本节将创建并运行一个 Spark Pi 的作业示例,并最终在控制台上显示圆周率 Pi 的近似计算结果,以帮助您快速了解 E-MapReduce 中集群、作业的作用和使用方法。

前提条件

操作步骤

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的数据开发页签,进入项目列表页面,并单击右上角的新建项目
  3. 新建项目对话框输入项目名称和项目描述,单击创建
  4. 单击对应项目右侧的工作流设计,单击左侧作业编辑进入作业编辑页面。
  5. 右键单击页面左侧需要操作的文件夹,选择新建作业
  6. 填写作业名称和作业描述,选择 Spark 类型,单击确定
    说明 您还可以通过在文件夹上单击右键,进行创建子文件夹、重命名文件夹和删除文件夹操作。
  7. 配置作业内容,示例如下:
    --class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
    说明 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 需要根据实际集群中的 Spark 版本来修改。例如,Spark 版本是 2.1.1, 则 jar 包为 spark-examples_2.11-2.1.1.jar;Spark 版本是 2.2.0,则 jar 包为 spark-examples_2.11-2.2.0.jar
  8. 单击运行
  9. 查看作业日志并确认结果。

    作业运行后,您可以在页面下方的运行记录页签中查看作业的运行日志。单击详情跳转至运行记录中该作业的详细日志页面,可以查看作业的提交日志、YARN Container 日志。

OSS 与 OSSREF

oss:// 的前缀代表数据路径指向一个 OSS 路径,为读写该数据指明路径,与 hdfs:// 类似。

ossref:// 也指向一个 OSS 路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。ossref:// 类型的路径可更方便地运行一些本地代码,而不需要登录到机器上传代码和依赖资源包。

例如,作业资源的 jar 包路径为ossref://xxxxxx/xxx.jar,则作业运行时,E-MapReduce 会自动下载这个 jar 包到集群中运行。

注意 ossref 不可用于下载过大的数据资源,否则会导致集群作业运行失败。