全部产品

使用EMR和DLF构建数据湖

使用阿里云的EMR和数据湖构建快速构建企业云上数据湖,开始分析处理数据。

前提条件

登录EMR控制台、OSS控制台和数据湖构建产品控制台,分别开通3个产品。

操作步骤

创建EMR集群

创建EMR Hadoop集群并选择使用数据湖元数据,详细步骤可以参考EMR中元数据管理部分中的数据湖元数据,。

使用Hive创建Table

1. 登录OSS控制台,创建OSS的bucket名称为dlfdemo,数据存放在该bucket中的data目录下。

2. 使用root账号登录EMR集群Master节点。

ssh root@master_ip

3. 启动EMR重的Hive。

hive

4. 使用Hive创建table emrusers。

CREATE EXTERNAL TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t' 
  STORED AS TEXTFILE 
  LOCATION 'oss://dlfdemo/data';

5. 登录数据湖构建控制台使用DLF查看元数据,可以在default数据库中看到新建的emrusers表。

6. 下载测试数据

7. 加载数据到emrusers中,将测试数据上传到OSS dlfdemo/data目录下,上传步骤可以参考OSS的上传文件

8. EMR使用Presto查询emrusers。

 presto --execute 'SELECT * from emrusers LIMIT 10'

可以对数据进行查询和分析,通过这个场景,我们使用了EMR、DLF和OSS三款产品,构建了一个简单的数据湖。