E-MapReduce默认提供了Hive环境,用户可以直接使用Hive来创建和操作自己的表和数据。

前提条件

  • 已创建好项目,详情请参见项目管理
  • 已准备好Hive SQL的脚本(例如uservisits_aggre_hdfs.hive),并上传到OSS的某个目录中(例如oss://path/to/uservisits_aggre_hdfs.hive)。

操作步骤

  1. 通过主账号登录阿里云E-MapReduce控制台
  2. 单击上方的数据开发页签。
  3. 项目列表页面,单击对应项目所在行的作业编辑
  4. 在页面左侧,在需要操作的文件夹上单击右键,选择新建作业
    说明 您还可以通过在文件夹上单击右键,进行新建子文件夹、重命名文件夹和删除文件夹操作。
  5. 输入作业名称作业描述,选择Hive作业类型。
    表示创建的作业是一个Hive作业。这种类型的作业,其运行实际是通过以下方式提交的Hive作业。
    hive [user provided parameters]
  6. 单击确定
  7. 作业内容中,填写提交该作业需要提供的命令行参数。
    例如,如果需要使用刚刚上传到OSS的Hive脚本,则填写的内容如下。
    -f ossref://path/to/uservisits_aggre_hdfs.hive

    uservisits_aggre_hdfs.hive内容如下。

    USE DEFAULT;
     DROP TABLE uservisits;
     CREATE EXTERNAL TABLE IF NOT EXISTS uservisits (sourceIP STRING,destURL STRING,visitDate STRING,adRevenue DOUBLE,userAgent STRING,countryCode STRING,languageCode STRING,searchWord STRING,duration INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS SEQUENCEFILE LOCATION '/HiBench/Aggregation/Input/uservisits';
     DROP TABLE uservisits_aggre;
     CREATE EXTERNAL TABLE IF NOT EXISTS uservisits_aggre (sourceIP STRING, sumAdRevenue DOUBLE) STORED AS SEQUENCEFILE LOCATION '/HiBench/Aggregation/Output/uservisits_aggre';
     INSERT OVERWRITE TABLE uservisits_aggre SELECT sourceIP, SUM(adRevenue) FROM uservisits GROUP BY sourceIP;
    说明 您也可以单击下方的+插入OSS路径,从OSS中进行浏览和选择,系统会自动补齐OSS上Hive脚本的路径。请务必将Hive脚本的前缀修改为OSSREF,以保证E-MapReduce可以正确下载该文件。
  8. 单击保存,作业配置即定义完成。

问题反馈

如果您在使用阿里云E-MapReduce过程中有任何疑问,欢迎您扫描下面的二维码加入钉钉群进行反馈。

emr_dingding