MaxCompute湖仓一体方案

自建数据湖与云数仓的融合解决方案,将MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。

直达最佳实践

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践

方案概述

客户在IDC或者公有云环境基于Hadoop自建数据湖方案,数据集中保存在HDFS文件系统用于数据分析任务。当线下资源无法满足海量的计算需求后,通过打通MaxCompute与线下数据湖之间的网络与元数据,MaxCompute可直接使用存储在自建数据湖中的数据进行计算,大幅减少集群的计算峰值压力。本实践将介绍全链路打通MaxCompute与自建数据湖的方案。

适用场景

  • 自建数据湖有较大弹性计算需求

  • 自建数据湖的数据治理能力优化

  • SQL类计算效率提升和成本控制

  • 构建混合云数据处理方案

技术架构

169

方案优势

  • 性能优越:高吞吐,高扩展性。

  • 无侵入性:现有业务无需改造。

  • 性能优化:MaxCompute在SQL上做了大量优化与能力沉淀,可提高SQL运行性能,降低计算成本。

  • 灵活管理:元数据实时同步。

  • 资源弹性:利用MaxCompute计算池弹性进行海量数据计算。