阿里云首页 数据湖构建 相关技术圈

EMR+DLF数据湖解决方案

在EMR+DLF数据湖方案中,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案具体步骤。

背景信息

在EMR数据湖方案中,结合DLF,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。采用EMR+DLF数据湖解决方案,相对传统EMR数据湖方案有下列优点:

  • DLF提供了统一的、服务化的元数据和权限管理工具,使元数据和权限变得更为透明,减少了元数据和权限不一致性,降低了管理成本

  • DLF提供了多套常见的数据入湖方案,包括RDS全量、RDS实时、SLS实时、OTS实时、Kafka实时数据入湖模板。用户可以基于DLF数据入湖能力,高效搭建自己的数据入湖解决方案。

EMR+DLF数据湖解决方案架构

限制条件

目前DLF服务仅在以下区域开通,仅华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)。

操作流程

具体操作

  • 步骤一:创建采用DLF为元数据服务的EMR集群

  • 步骤二:在DLF中创建元数据库和元数据表

  • 步骤三:通过DLF入湖功能创建RDS到数据湖的入湖流程

  • 步骤四:通过EMR的Spark、Presto引擎查询DLF表

步骤一:创建采用DLF为元数据服务的EMR集群

在创建EMR集群的流程中,注意在配置“基础配置”步骤时,选择“数据湖元数据”。如果,您没有开通DLF,会提醒您先开通DLF产品。

步骤二:在DLF中创建元数据库

基于准备好的OSS信息,在DLF中创建元数据库和元数据表,用于存放OSS数据的元数据信息。操作步骤如下:

  1. 登录元数据库管理控制台,在左上角选择与OSS相同的地域,例如华东1(杭州)。

  2. 创建元数据库。例如emr_dlf_data_lake。

    1. 在左侧导航栏,单击元数据库。

    2. 在元数据库页面,单击新建元数据库。

    3. 在新建元数据库对话框,配置元数据库参数。

    4. 单击确定,完成元数据库创建。

步骤三:通过DLF入湖功能创建RDS到数据湖的入湖流程

可以利用DLF的入湖功能,创建从RDS数据库中到数据湖的数据同步任务作业。具体操作如下:

  1. 登入入湖任务管理工作台,在数据源管理中添加您需要同步数据的RDS数据源信息,主要包括您的RDS实例信息,连接身份信息,网络信息等;

  2. 在入湖任务管理界面中单击新建入湖任务按钮;

  3. 在入湖任务创建向导中,选择关系数据库全量入湖,进入配置数据源和目标信息步骤

  4. 配置数据源和目标步骤时,选择刚才创建的数据源连接信息,和步骤二中创建的目标元库信息;

  5. 完成任务创建,并在入湖任务管理界面运行任务,待任务执行完成。

步骤四:通过EMR的Spark、Presto引擎查询DLF表

通过ssh登录到EMR集群的emr-header-1节点。

1. 通过spark-sql查询表departments:

2. 通过presto查询表departments:

首页 数据湖构建 最佳实践 EMR+DLF数据湖解决方案