本节将创建并运行一个 Spark Pi 的作业示例,并最终在控制台上显示圆周率 Pi 的近似计算结果,以帮助您快速了解 E-MapReduce 中集群、作业的作用和使用方法。

前提条件

背景信息

如果作业涉及的资源包和数据源存储在 OSS 中,则在创建作业时您需要使用以下两种 OSS 路径:

  • oss:// 的前缀代表数据路径指向一个 OSS 路径,为读写该数据指明路径,与 hdfs:// 类似。一般作业的数据源使用此种路径 。
  • ossref:// 也指向一个 OSS 路径,不同的是它会将对应的代码资源下载到本地,然后将命令行中的路径替换为本地路径。ossref:// 类型的路径可更方便地运行一些本地代码,而不需要登录机器来上传代码和依赖资源包。一般作业资源包使用此种路径。

    例如,作业资源的 jar 包路径为ossref://xxxxxx/xxx.jar,则作业运行时,E-MapReduce 会自动下载这个 jar 包到集群中运行。

    注意 ossref 不可用于下载过大的数据资源,否则会导致集群作业运行失败。

操作步骤

  1. 登录阿里云E-MapReduce控制台
  2. 单击上方的数据开发页签。
  3. 项目列表页面,单击对应项目所在行的作业编辑
  4. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
    说明 您还可以通过在文件夹上单击右键,进行创建子文件夹、重命名文件夹和删除文件夹操作。
  5. 输入作业名称作业描述,例如选择Spark类型,
  6. 单击确定
  7. 配置作业内容,示例如下。
    --class org.apache.spark.examples.SparkPi --master yarn-client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 10
    说明 /usr/lib/spark-current/examples/jars/spark-examples_2.11-2.1.1.jar 需要根据实际集群中的 Spark 版本来修改。例如,Spark 版本是 2.1.1, 则 jar 包为 spark-examples_2.11-2.1.1.jar;Spark 版本是 2.2.0,则 jar 包为 spark-examples_2.11-2.2.0.jar
  8. 单击运行
  9. 查看作业日志并确认结果。

    作业运行后,您可以在页面下方的运行记录页签中查看作业的运行日志。单击详情跳转至运行记录中该作业的详细日志页面,可以查看作业的提交日志、YARN Container 日志。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding