基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测最佳实践

直达最佳实践

点击查看最佳实践详情

更多最佳实践

点击查看更多最佳实践

场景描述

数据湖和数据仓库是当前大数据技术条件下构建分布式系统的两种数据架构设计取向,数据湖偏向灵活性,数据仓库侧重成本、性能、安全、治理等企业级特性。但是数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强。在这样的背景之下,阿里云MaxCompute率先提出湖仓一体,为业界和用户展现了一种数据湖和数据仓湖互相补充,协同工作的架构。这样的架构同时为用户提供了数据湖的灵活性和数据仓库的诸多企业级特性,将用户使用大数据的总体拥有成本进一步降低。

方案优势

  • 融合数据湖和数据仓库优势,在灵活性和效率上找到最佳平衡。

  • MaxCompute在SQL上做了大量优化与能力沉淀,可提高SQL运行性能,降低计算成本。基于集群学习PAI封装出多种贴近业务场景的算法服务,满足更多的业务需求。

  • MaxCompute云原生的弹性资源和EMR集群资源形成互补,两套体系之间进行资源的削峰填谷,不仅减少作业排队,且降低整体成本。

方案架构

199