MaxCompute提供湖仓一体方案,该方案可以打破数据湖与数据仓库割裂的体系,并融合数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力,助力构建数据湖和数据仓库相融合的数据管理平台。
适用范围
仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国(法兰克福)地域支持构建湖仓一体1.0能力。
构建方式
MaxCompute湖仓一体方案通过数据仓库和数据湖共同实现。当前支持的湖仓一体构建方式如下:
通过MaxCompute、数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对OSS元数据的管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。
通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及通过阿里云E-MapReduce搭建等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。
相关文档
在外部项目创建后,外部项目中表的所有者归属于创建该外部项目的账号,如果需要授权其他用户操作权限,请参见对于外部项目的用户以及权限操作。
在构建湖仓一体时,可使用SQL方式执行外部项目管理,详情请参见使用SQL管理外部项目。
Spark on MaxCompute目前已支持访问湖仓一体外部数据源,若想将数据处理作业的环境从Spark更换为MaxCompute,详情请参见Spark访问湖仓一体外部数据源。
分布式文件系统和数据存储方案,请参见利用MaxCompute External Volume处理非结构化数据。