全部产品
E-MapReduce

Hive 作业配置

更新时间:2017-06-07 13:26:11   分享:   

E-MapReduce 中,用户申请集群的时候,默认为用户提供了 Hive 环境,用户可以直接使用 Hive 来创建和操作自己的表和数据。操作步骤如下。

  1. 用户需要提前准备好 Hive SQL 的脚本,例如:

    1. USE DEFAULT;
    2. DROP TABLE uservisits;
    3. CREATE EXTERNAL TABLE IF NOT EXISTS uservisits (sourceIP STRING,destURL STRING,visitDate STRING,adRevenue DOUBLE,user
    4. Agent STRING,countryCode STRING,languageCode STRING,searchWord STRING,duration INT ) ROW FORMAT DELIMITED FIELDS TERMI
    5. NATED BY ',' STORED AS SEQUENCEFILE LOCATION '/HiBench/Aggregation/Input/uservisits';
    6. DROP TABLE uservisits_aggre;
    7. CREATE EXTERNAL TABLE IF NOT EXISTS uservisits_aggre ( sourceIP STRING, sumAdRevenue DOUBLE) STORED AS SEQUENCEFILE LO
    8. CATION '/HiBench/Aggregation/Output/uservisits_aggre';
    9. INSERT OVERWRITE TABLE uservisits_aggre SELECT sourceIP, SUM(adRevenue) FROM uservisits GROUP BY sourceIP;
  2. 将该脚本保存到一个脚本文件中,例如叫 uservisits_aggre_hdfs.hive,然后将该脚本上传到 OSS 的某个目录中(例如:oss://path/to/uservisits_aggre_hdfs.hive)。

  3. 登录阿里云 E-MapReduce 控制台作业列表

  4. 单击该页右上角的创建作业,进入创建作业页面。

  5. 填写作业名称。

  6. 选择 Hive 作业类型,表示创建的作业是一个 Hive 作业。这种类型的作业,其后台实际上是通过以下的方式提交。

    1. hive [user provided parameters]
  7. 应用参数选项框中填入 Hive 命令后续的参数。例如,如果需要使用刚刚上传到 OSS 的 Hive 脚本,则填写的内容如下:

    1. -f ossref://path/to/uservisits_aggre_hdfs.hive

    您也可以单击选择 OSS 路径,从 OSS 中进行浏览和选择,系统会自动补齐 OSS 上 Hive 脚本的绝对路径。请务必将 Hive 脚本的前缀修改为 ossref(单击切换资源类型),以保证 E-MapReduce 可以正确下载该文件。

  8. 选择执行失败后策略。

  9. 单击确定,Hive 作业即定义完成。

本文导读目录
本文导读目录
以上内容是否对您有帮助?