MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。本文介绍如何通过MaxCompute和异构数据平台构建湖仓一体(本功能处于公测阶段)。
湖仓一体搭建
MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的湖仓一体构建方式如下:
通过MaxCompute、数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据的管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。更多DLF和OSS介绍,请参见数据湖构建DLF和对象存储OSS。
通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。
使用限制
仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地域支持构建湖仓一体能力。
MaxCompute需要与DLF、OSS部署在同一地域。
相关文档
当External Project创建完毕之后,其中的表的所有者归属于创建External Project的账号,如果您需要授权其他用户外部表项目操作权限,请参见对于外部项目的用户以及权限操作。
在构建湖仓一体时,可使用SQL方式执行外部项目(External Project)管理,详情请参见使用SQL管理外部项目。