MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过MaxCompute和异构数据平台构建湖仓一体(本功能处于公测阶段)。
背景信息
MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的两种构建湖仓一体方式如下:
- 通过MaxCompute与数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据的管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。更多DLF和OSS介绍,请参见数据湖构建DLF和对象存储OSS。
- 通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。
MaxCompute湖仓一体构建流程如下:
使用限制
- 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、新加坡和德国(法兰克福)地域支持构建湖仓一体能力。
- MaxCompute可以部署在与OSS和DLF不同的地域,但OSS和DLF必须部署在同一地域。
前提条件
在开始构建前,请您确保已经完成以下准备工作:
- 已开通MaxCompute服务并创建MaxCompute项目。详情请参见开通MaxCompute服务和创建MaxCompute项目。
说明
如果已经开通了MaxCompute服务,直接使用即可。如果未开通,建议开通时设置MaxCompute数据类型为Hive兼容。
通过MaxCompute与Hadoop构建湖仓一体时,Hadoop集群所使用的VPC和MaxCompute服务开通地域保持一致,这样可以免去跨地域网络产生的费用。
- 当您通过MaxCompute与DLF和OSS构建湖仓一体时,请确保:
- 当您通过MaxCompute与Hadoop构建湖仓一体时,Hadoop集群环境需开启高可用(HA)。具体详情,请咨询Hadoop集群运维人员。
步骤一:MaxCompute访问授权
- 当您通过MaxCompute与Hadoop构建湖仓一体时,授权方法如下。
授予MaxCompute在用户VPC内创建ENI网卡的权限,以实现MaxCompute到用户VPC的网络连通。您可以使用VPC所有者账号登录阿里云,单击授权进行授权。
- 当您通过MaxCompute与DLF和OSS构建湖仓一体时,授权方法如下。
步骤二:通过DataWorks构建湖仓一体
步骤三:通过DataWorks管理湖仓一体
-
使用湖仓一体
- 在DataWorks控制台页面左侧导航栏,单击数据湖集成(湖仓一体)。
- 在数据湖集成(湖仓一体)页面,选择目标外部项目,开始使用湖仓一体。
- 使用湖仓一体。
单击目标外部项目操作列的使用湖仓一体。
- 更新湖仓一体外部项目。
单击目标外部项目操作列的项目配置,即可在项目配置对话框更新外部项目信息。说明 您可以更新MaxCompute外部项目映射的外部数据源的数据库名称,以及重新选择外部数据源。如果需要删除外部数据源,请到外部数据源页面进行删除(暂不支持外部数据源更新操作)。
- 删除湖仓一体外部项目。
单击目标外部项目操作列的删除,即可删除当前MaxCompute外部项目。说明 该删除操作为逻辑删除操作,外部项目会进入静默状态,并在15天后被正式删除。在此期间无法创建同名外部项目。
- 使用湖仓一体。
-
查看湖仓一体外部项目的元数据信息
- 在DataWorks控制台页面左侧导航栏,单击工作空间列表。
- 在工作空间列表中,选择与外部项目绑定的工作空间,单击操作列的数据地图。
- 在数据地图页面的搜索框或全部数据页签左侧项目下拉列表,输入外部项目中的表名进行搜索。
说明
- 表的申请权限和查看血缘功能暂时不可用。
- 表中的元数据信息为T+1更新,即在映射端(如Hive中)修改表结构,则T+1地体现在DataWorks数据地图中(MaxCompute引擎侧为实时元数据)。
- 在DataWorks数据开发中查看外部项目元数据信息
- 在DataWorks控制台页面左侧导航栏,单击工作空间列表。
- 在工作空间列表中,选择与外部项目绑定的工作空间,单击操作列的数据开发。
- 在DataStudio页面左侧菜单栏单击公共表。
- 在公共表页面的引擎类型下拉框中选择MaxCompute。
- 在项目名或表名搜索框输入外部项目中的表名进行搜索,单击目标表名称即可在下方查看表结构信息。
说明
- 表的申请权限和查看血缘功能暂时不可用。
- 表中的元数据信息为T+1更新,即在映射端(如Hive中)修改表结构,则T+1地体现在DataWorks数据地图中(MaxCompute引擎侧为实时元数据)。