临时查询是 adhoc 即席查询的场景,只支持 HiveSQL SparkSQL 和 Shell 三种类型,运行临时查询的语句,在页面下方显示日志和查询结果。

新建作业

作业编辑页中运行作业,单击对应作业详情会跳转到详情页面显示提交日志和运行日志。作业与两者的区别主要是运行场景不同,临时查询针对数据科学家和数据分析师,主要用SQL为工具。

  1. 通过主账号登录阿里云 E-MapReduce 控制台
  2. 单击上方的数据开发页签,进入项目列表页面。
  3. 单击对应项目右侧的工作流设计,进入作业编辑页面。
  4. 单击页面左侧的临时查询页签,进入临时查询页面。
  5. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
  6. 新建作业对话框中,输入作业名称、作业描述,选择作业类型。

    创建作业时作业类型一经确定,不能修改。

  7. 单击确定
    说明 您还可以通过在文件夹上单击右键,进行创建子文件夹、重命名文件夹和删除文件夹操作。

开发作业

关于 HiveSQL SparkSQL 和 shell 作业的具体开发,请参见 EMR 用户指南-数据开发- 作业部分。
说明 插入 OSS 路径时,如果选择 OSSREF 文件前缀,系统会把OSS文件下载到集群本地,并添加到 classpath 中。
  • 作业基础设置

    单击页面右上角的作业设置,弹出作业设置页面。

    • 添加运行资源:如添加作业执行需依赖的 jar 包或 UDF 等资源,需将资源先上传至 OSS。在作页的运行资源中选中该资源后,可以直接在作业中引用该资源。
    • 配置参数:指定作业代码中所引用变量的值。用户可以在代码中引用变量,格式为:${变量名}。单击右侧的加号图标添加 key 和 value,key 为变量名,value 为变量的值。另外,您还可以根据调度启动时间自定义时间变量, 规则如下:

      • yyyy 表示 4 位的年份。
      • MM 表示月份。
      • dd 表示天。
      • HH 表示 24 小时制,12 小时制使用 hh。
      • mm 表示分钟。
      • ss 表示秒。

        时间变量可以是包含 yyyy 年份的任意时间组合, 同时支持用+和-方式来分别表示提前和延后。例如,变量 ${yyyy-MM-dd}表示当前日期,则:

        • 后 1 年的表示方式: ${yyyy+1y} 或者 ${yyyy-MM-dd hh:mm:ss+1y}
        • 后 3 月的表示方式: ${yyyyMM+3m}或者 ${hh:mm:ss yyyy-MM-dd+3m}
        • 前 5 天的表示方式: ${yyyyMMdd-5d}或者 ${hh:mm:ss yyyy-MM-dd-5d}
        注意 时间变量参数必须以'yyyy'开始,如${yyyy-MM}。如果希望单独获取月份等特定时间区域的值,可以在作业内容中使用如下两个函数提取:
        • parseDate(<参数名称>, <时间格式>): 将给定参数转换为 Date 对象。其中,参数名称为上述配置参数中设置的一个变量名,时间格式为设置该变量时所使用的时间格式。如设置一个变量 current_time = ${yyyyMMddHHmmss-1d}, 则此处时间格式应设置为'yyyyMMddHHmmss';
        • formatDate(<Date对象>, <时间格式>): 将给定 Date 对象转换为给定格式的时间字符串。
        函数使用示例:
        • 获取 current_time 变量的小时字面值:${formatDate(parseDate(current_time, 'yyyyMMddHHmmss'), 'HH')}
        • 获取 current_time 变量的年字面值:${formatDate(parseDate(current_time, 'yyyyMMddHHmmss'), 'yyyy')}
  • 作业高级设置

    作业设置页面,单击高级设置页签。

    • 模式:包括从 Worker 节点提交从 Header/Gateway 节点提交两种模式。
      • Worker 节点提交模式下,作业通过 Launcher在 YARN 上分配资源进行提交。
      • 从 Header/Gateway 节点提交模式下,作业在分配的机器上直接运行。
    • 调度参数:设置作业运行 YARN 队列、CPU、内存和 Hadoop 用户等信息,可以不设置,作业会直接采用 Hadoop 集群的默认值。

作业执行

作业开发和配置完成后,您可以单击右上角的运行按钮执行作业。

查看日志

作业运行后,您可以在页面下方的日志页签中查看作业的运行日志。