MaxCompute湖仓一体概述

更新时间: 2023-07-17 10:29:04

MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过MaxCompute和异构数据平台构建湖仓一体(本功能处于公测阶段)。

背景信息

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的两种构建湖仓一体方式如下:

  • 通过MaxCompute与数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据的管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。更多DLF和OSS介绍,请参见数据湖构建DLF对象存储OSS

  • 通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。

使用限制

  • 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地域支持构建湖仓一体能力。

  • MaxCompute可以部署在与OSS和DLF不同的地域,但OSS和DLF必须部署在同一地域。

湖仓一体搭建

阿里云首页 云原生大数据计算服务 MaxCompute 相关技术圈