全部产品
E-MapReduce

交互式工作台操作说明

更新时间:2017-06-07 13:26:11   分享:   

新建交互式任务

注意:要运行交互式任务的集群的配置,必须满足EMR-2.3及以上版本,不小于三节点,4核8G及以上配置。

  1. 登录阿里云 E-MapReduce 控制台交互式工作
  2. 点击右侧新建交互式任务或文件-新建交互式任务新建交互式任务
  3. 填入名称,选择默认类型,关联集群可选,点击确认新建一个交互式任务。设置

类型目前支持三类,Spark可以编写scala spark代码,Spark SQL可以写spark支持的sql语句,Hive可以写Hive支持的sql语句。

4.关联集群,需要是一个创建好的集群,且必须是EMR-2.3及以上版本,不小于三节点,4核8G及以上配置。也可以先不关联,在运行前再关联。

目前一个账户最多创建20个交互式任务。

填写保存段落

段落是运行任务的最小单元,1个交互式任务可以填写多个段落。每个段落可以在内容开头写%spark,%sql,%hive表明该段落是scala spark代码段,spark sql,还是hive sql。类型前缀以空格或换行和实际内容分割,不写类型前缀则以交互式任务的默认类型作为该段落的运行类型。

一个创建spark临时表的示例如下:

将如下代码粘贴进段落内,会显示一个红*提醒有修改,通过保存段落按钮或运行按钮可以保存对段落内容的修改,点击段落下方的+可以新建一个段落。目前一个交互式任务最多可以创建30个段落。

  1. %spark
  2. import org.apache.commons.io.IOUtils
  3. import java.net.URL
  4. import java.nio.charset.Charset
  5. // load bank data
  6. val bankText = sc.parallelize(
  7. IOUtils.toString(
  8. new URL("http://emr-sample-projects.oss-cn-hangzhou.aliyuncs.com/bank.csv"),
  9. Charset.forName("utf8")).split("\n"))
  10. case class Bank(age: Integer, job: String, marital: String, education: String, balance: Integer)
  11. val bank = bankText.map(s => s.split(";")).filter(s => s(0) != "\"age\"").map(
  12. s => Bank(s(0).toInt,
  13. s(1).replaceAll("\"", ""),
  14. s(2).replaceAll("\"", ""),
  15. s(3).replaceAll("\"", ""),
  16. s(5).replaceAll("\"", "").toInt
  17. )
  18. ).toDF()
  19. bank.registerTempTable("bank")

save

运行段落

运行之前首先要关联一个已经创建好的集群,如果创建交互式任务时未关联,右上角显示未关联,点击在可用集群列表中选择一个。注意关联的集群必须是EMR-2.3以上版本,不小于三节点,4核8G即以上配置。

assicate_cluster

点击运行按钮,会自动保存当前段落,运行内容,如果这是最后一个段落会自动新建一个段落。

运行后会显示当前的运行状态,还未实际运行的是PENDING,运行后是RUNNING。运行完成是FINISHED,如果有错误是ERROR,运行结果会显示在段落的运行按钮下方。运行时可以点运行按钮下方的取消按钮取消运行,取消的状态显示ABORT。

运行结果

段落可以反复多次运行,只保留最后一次运行的结果。运行时不能修改段落的输入内容,运行后可以修改。

运行全部

交互式任务可以点击菜单栏上的运行全部运行所有的段落,段落会顺序提交运行。不同的类型有独立的执行队列,如果一个交互式任务包含多种段落类型,顺序提交运行后,实际在集群上的执行顺序是按照类型划分的。Spark和Spark SQL类型是顺序一个个的执行。HIVE支持并发执行,同一个集群交互式段落最大并发数是10。注意并发运行的作业同时受集群资源限制,集群规模小并发很多依然要在yarn上排队。运行所有

取消关联集群

集群运行过交互式任务后,为了再次执行时能够快速响应,会创建进程缓存一些上下文运行环境。如果您暂时不再执行交互式任务,想要释放缓存占用的集群资源,可以把运行过的交互式任务都取消关联,会释放掉原关联集群上占用的内存资源。取消关联

其他操作项

段落操作

段落操作

隐藏结果/显示结果

可以将段落的结果隐藏掉,只显示段落的输入内容。

删除

删除当前段落,运行中的段落也可以删除。

文件菜单

文件操作

新建交互式任务

新建一个交互式任务,并切换界面到新建的交互式任务上。

新建段落

在交互式任务的尾部添加一个新段落,一个交互式任务最多有30个段落。

保存所有段落

所有修改过的段落都会保存

删除交互式任务

删除掉当前的交互式任务。如果关联了集群会同时取消关联。

视图

只显示代码/显示代码和结果

所有段落只显示输入的代码,还是同时显示结果内容。

本文导读目录
本文导读目录
以上内容是否对您有帮助?