交互式工作台提供在 E-MapReduce 管理控制台直接编写并运行 Spark,SparkSql,HiveSql 任务的能力,您可以在工作台直接看到运行结果。交互式工作台适合处理运行时间较短、想要直接看到数据结果、调试性质的任务,对于运行时间很长,需要定期执行的任务应使用作业和执行计划功能。 本节会介绍如何新建演示任务并运行,其他示例和操作说明请参考后面的章节。

创建演示任务

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的老版作业调度
  3. 在左侧导航栏中单击交互式工作台
  4. 单击新建演示任务

  5. 弹出确认框,提示运行需要的集群环境,单击确认创建演示任务。会新建三个示例的交互式任务。

运行Spark演示任务

  1. 单击 EMR-Spark-Demo,显示 Spark 的交互式示例。运行之前首先要关联一个已经创建好的集群, 单击在可用集群列表中选择一个。注意关联的集群必须是 EMR-2.3 以上版本,不小于三节点,4 核 8 G即以上配置。

  2. 关联后,单击运行。关联的集群第一次执行 Spark/SparkSQL 交互式任务时会额外花费一些时间构建 Spark 上下文和运行环境,大概要 1 分钟,后续的执行就不需要再耗时构建了。运行结果如下所示:

运行 SparkSQL 演示任务

  1. 单击 EMR-Spark-Demo,显示 SparkSQL 的交互式示例。运行之前依然要先关联一个已经创建好的集群, 单击右上角在可用集群列表中选择一个。

  2. SparkSQL 的演示任务有好几个演示段落,每个段落可以单独运行,也可以通过运行全部运行。运行后可以看到各段落返回的数据结果。
    说明 创建表的段落如果运行多次会报错提示表已存在。


运行Hive演示任务

  1. 单击 EMR-Hive-Demo,显示 Hive 的交互式示例。运行之前依然要先关联一个已经创建好的集群, 单击右上角在可用集群列表中选择一个。
  2. Hive 的演示任务有好几个演示段落,每个段落可以单独运行,也可以通过运行全部运行。运行后可以看到各段落返回的数据结果。
    说明
    • 关联的集群第一次执行hive交互式任务时会额外花费一些时间构建 Hive 客户端运行环境,大概要几十秒,后续的执行就不需要再耗时构建了。
    • 创建表的段落如果运行多次会报错提示表已存在。


取消关联集群

集群运行过交互式任务后,为了再次执行时能够快速响应,会创建进程缓存一些上下文运行环境。如果您暂时不再执行交互式任务,想要释放缓存占用的集群资源,可以把运行过的交互式任务都取消关联,会释放掉原关联集群上占用的内存资源。