构建数据湖和数据仓库相融合的数据管理平台-湖仓一体-云原生大数据计算服务 MaxCompute-阿里云

备案控制台

输入文档关键字查找

MaxCompute提供湖仓一体方案，该方案可以打破数据湖与数据仓库割裂的体系，并融合数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力，助力构建数据湖和数据仓库相融合的数据管理平台。

适用范围

仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）、华南1（深圳）、中国香港、新加坡和德国（法兰克福）地域支持构建湖仓一体1.0能力。

构建方式

MaxCompute湖仓一体方案通过数据仓库和数据湖共同实现。当前支持的湖仓一体构建方式如下：

通过MaxCompute、数据湖构建DLF和对象存储OSS构建湖仓一体：数据湖的元数据（Schema）全部位于DLF中。MaxCompute可以利用DLF对OSS元数据的管理能力，提升对OSS半结构化格式（Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC）数据的处理能力。
通过MaxCompute与Hadoop构建湖仓一体：该方式包括本地机房搭建、基于云上虚拟机搭建以及通过阿里云E-MapReduce搭建等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后，MaxCompute可以直接访问Hive元数据服务，并将元数据信息映射到MaxCompute的外部项目（External Project）中。

相关文档

在外部项目创建后，外部项目中表的所有者归属于创建该外部项目的账号，如果需要授权其他用户操作权限，请参见对于外部项目的用户以及权限操作。
在构建湖仓一体时，可使用SQL方式执行外部项目管理，详情请参见使用SQL管理外部项目。
Spark on MaxCompute目前已支持访问湖仓一体外部数据源，若想将数据处理作业的环境从Spark更换为MaxCompute，详情请参见Spark访问湖仓一体外部数据源。
分布式文件系统和数据存储方案，请参见利用MaxCompute External Volume处理非结构化数据。

上一篇：Hologres外部项目（beta）下一篇：MaxCompute湖仓一体概述

该文章对您有帮助吗？