临时查询主要针对即席查询(Ad Hoc)的场景,面向数据科学家和数据分析师,其主要使用工具为SQL。运行临时查询作业时,将会在页面下方显示日志和查询结果。本文为您介绍如何在临时查询页面新建作业、设置作业、运行作业和编辑锁操作。

背景信息

本文为您介绍临时查询的相关操作,具体如下:

前提条件

已创建项目或已被加入到项目中,详情请参见项目管理

新建作业

  1. 进入数据开发的项目列表页面。
    1. 通过阿里云账号登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的数据开发页签。
  2. 项目列表页面,单击目标项目所在行的作业编辑
  3. 新建临时查询作业。
    1. 单击最左侧的search_temp图标。
    2. 临时查询区域,在需要操作的文件夹上单击右键,选择新建作业
      说明 您还可以通过在文件夹上单击右键,进行新建子文件夹重命名文件夹删除文件夹操作。
    3. 新建交互式作业对话框中,填写作业名称作业描述,从作业类型列表中,选择新建的作业类型。
      E-MapReduce数据开发支持Shell、SparkSQL、Spark Shell和HiveSQL四种类型的临时查询作业。
      注意 创建作业时作业类型一经确定,不能修改。
    4. 单击确定

设置作业

各个具体作业类型的开发与设置,请参见作业部分。 以下内容介绍的是作业的基础设置高级设置共享库告警设置

  1. 临时查询页面,单击右上角的作业设置
  2. 作业设置面板,设置基础信息。
    参数 描述
    作业概要
    • 作业名称:您创建作业的名称。
    • 作业类型:您创建作业的类型。
    • 作业描述:单击右侧的编辑,可以修改作业的描述。
    运行资源 单击右侧的加号图标,添加作业执行所依赖的JAR包或UDF等资源。

    您需要将资源先上传至OSS,然后在运行资源中直接添加即可。

    配置参数 指定作业代码中所引用的变量的值。您可以在代码中引用变量,格式为${变量名}

    单击右侧的加号图标,添加Key和Value,根据需要选择是否为Value进行加密。其中,Key为变量名,Value为变量的值。另外,您还可以根据调度启动时间在此配置时间变量,详情请参见作业日期设置

  3. 作业设置面板,单击高级设置页签。
    配置项 说明
    模式
    • 提交节点包括以下两种模式,详情请参见作业提交模式说明
      • 在Worker节点提交:作业通过Launcher在YARN上分配资源进行提交。
      • 在Header/Gateway节点提交:作业在分配的机器上直接运行。
    • 预期最大运行时长:0~10800秒。
    环境变量 添加作业执行的环境变量,也可以在作业脚本中直接export环境变量。
    • 示例一:一个Shell类型的任务,内容是echo ${ENV_ABC}。如果此处设置了一个环境变量 ENV_ABC=12345,则echo命令的输出结果为12345
    • 示例二:一个Shell类型的作业,内容是java -jar abc.jar,其中abc.jar的内容如下:
      public static void main(String[] args) {System.out.println(System.getEnv("ENV_ABC"));}
      返回的结果是12345。此处环境变量的设置相当于执行了以下脚本。
      export ENV_ABC=12345
      java -jar abc.jar
    调度参数 设置作业运行YARN队列、内存、虚拟核数、优先级和执行用户等信息。当未设置这些参数时,作业会直接采用Hadoop集群的默认值。
    说明 内存设置用于设置启动器Launcher的内存配额。
  4. 作业设置面板,单击共享库页签。
    依赖库区域,填写库列表

    执行作业需要依赖一些数据源相关的库文件。E-MapReduce将这些库以依赖库的形式发布在调度服务的仓库中,在创建作业时需要指定使用哪个版本的依赖库。您只需设置相应的依赖库版本,例如sharedlibs:streamingsql:datasources-bundle:2.0.0

  5. 作业设置面板,单击告警设置页签。
    配置项 说明
    执行失败 设置作业执行失败时,是否通知到用户告警组或钉钉告警组。
    启动超时 设置作业启动超时时,是否通知到用户告警组或钉钉告警组。
    作业执行超时 设置作业执行超时时,是否通知到用户告警组或钉钉告警组。

运行作业

  1. 执行作业。
    1. 临时查询页面,单击右上方的运行执行作业。
    2. 运行作业对话框中,选择资源组和执行集群。
    3. 单击确定
  2. 查看作业运行日志。
    1. 作业运行后,您可以在日志页签下查看作业运行的日志。
    2. 单击运行记录页签,可以查看作业实例的运行情况。
    3. 单击目标运行记录右侧的详情,跳转到运维中心,可以查看作业实例的详细信息。

编辑锁

在编辑作业时,您可以单击右上方的上锁,为该作业加上编辑锁,保证此时只有您可以编辑作业,项目其他成员无法编辑该作业。只有解锁之后,项目中其他成员才可以编辑该作业。

说明 上锁之后,只有上锁的成员和阿里云账号管理员能够解锁。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding