什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute提供离线和实时的数据接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。详细发展历程、产品荣誉及客户案例请参见发展历程客户案例

MaxCompute还深度融合了阿里云如下产品:

  • DataWorks

    基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

  • 人工智能平台PAI

    基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。

  • 实时数仓Hologres

    基于Hologres对MaxCompute数据进行外表查询加速,也可导出到Hologres进行交互式分析。

  • Quick BI

    基于Quick BI对MaxCompute数据进行报表制作,实现数据可视化分析。

MaxCompute融合的更多阿里云产品信息,请参见支持的云服务

前置概念

阅读本文前,您可按需了解基础概念:什么是数据仓库?

视频简介

核心功能

MaxCompute提供的核心功能如下。详细功能清单,请参见功能特性

功能分类

功能描述

全托管的Serverless在线服务

  • 对外以API方式访问的在线服务,开箱即用。

  • 预铺设大规模集群资源,可以按需使用、按量计费。

  • 无需平台运维,最小化运维投入。

弹性能力与扩展性

  • 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。

  • 支持实时根据业务峰谷变化分配资源。

统一丰富的计算和存储能力

  • MaxCompute支持多种计算模型和丰富的UDF。

  • 采用列压缩存储格式,通常情况下具备5倍压缩能力,可以大幅节省存储成本。

数据建模、开发、治理能力

借助一站式数据开发与治理平台DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks支持对MaxCompute项目进行管理以及Web端查询编辑。

集成AI能力

  • 人工智能平台 PAI无缝集成,提供强大的机器学习处理能力。

  • 您可以使用熟悉的Spark-ML开展智能分析。

  • 使用Python机器学习三方库。

深度集成Spark引擎

  • 内建Apache Spark引擎,提供完整的Spark功能。

  • 与MaxCompute计算资源、数据和权限体系深度集成。

湖仓一体

  • 集成对数据湖(OSS或Hadoop HDFS)的访问分析,支持通过外部表映射、Spark直接访问方式开展数据湖分析。

  • 在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。

详细信息,请参见MaxCompute湖仓一体概述

离线实时一体

  • 与实时数仓Hologres深度融合,支持外部表关联查询,支持存储层直读,查询效率相比其他类型外部表高5倍以上。

  • Hologres针对MaxCompute支持查询加速,数据无需移动,查询加速10倍以上。

  • Hologres支持MaxCompute元数据的批量导入,无需手工创建外表。

支持流式写入和近实时分析

  • 支持流式数据实时写入并在数据仓库中开展分析。

  • 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。

  • 支持高性能秒级弹性并发查询,满足近实时分析场景需求。

提供持续的SaaS化云上数据保护

为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能,兼具开源大数据与托管数据库的安全能力。

产品架构

MaxCompute的产品架构如下。

p787518

其中核心模块介绍如下。

模块名称

功能说明

存储引擎

MaxCompute为您提供MaxCompute存储引擎(内部存储)用于存储MaxCompute表、资源等,同时您也可以通过外表的方式直接读取存储在OSS、TableStore、RDS等其他产品中的数据。

其中MaxCompute存储引擎主要采用列压缩存储格式,通常情况下可达到5倍压缩比。

计算引擎

MaxCompute为您提供MaxCompute SQL计算引擎和CUPID计算平台。

  • MaxCompute SQL引擎:可直接运行MaxCompute SQL任务。MaxCompute SQL任务的命令及函数语法要求及开发示例可参见开发参考:SQL

  • CUPID计算平台:可运行Spark任务、Mars任务等三方引擎的任务,多引擎的开发要求及示例请参见开发参考:多引擎

云服务层

MaxCompute支持创建不同的任务队列,并为每个队列配置不同的资源和优先级,以便对任务执行进行更精细的控制,同时具备强大的调度系统,可以管理并优化计算资源的分配和使用,以提高系统的整体效率。MaxCompute也提供数据安全性的多层保护,包括项目空间隔离、权限控制、数据加密,确保数据的安全和隐私。

统一元数据及安全体系

MaxCompute的离线租户级别元数据信息会通过Information Schema提供服务,同时Information Schema也提供MaxCompute的使用历史日志数据查询等服务,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。

MaxCompute还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理

用户接口与开放性

MaxCompute提供如下用户接口:

数据生态支持

MaxCompute与阿里云DataWorks深度结合,可通过DataWorks实现一站式数据开发分析治理,同时也支持其他多种数据开发分析场景:

  • 数据湖

  • 数据集成

  • 数据治理

  • 三方引擎的数据开发

  • 数据可视化分析

TopConsole(管理控制台)

提供MaxCompoute项目管理、Quota管理、租户管理等基础配置管理能力,以及作业运维、资源观测基本运维能力,还有物化视图、成本分析优化等增强运维能力,详情请参见资源和作业管理

产品优势

MaxCompute的主要优势如下:

  • 简单易用

    • 面向数据仓库实现高性能存储、计算。

    • 预集成多种服务,标准SQL开发简单。

    • 内建完善的管理和安全能力。

    • 免运维,按量付费,不使用不产生计算费用。

  • 匹配业务发展的弹性扩展能力

    存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。

  • 支持多种分析场景

    支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。

  • 开放的平台

    • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。

    • 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用。

联系我们

如果您在使用MaxCompute的过程中有任何疑问或建议,欢迎填写钉钉群申请表单加入钉钉群进行反馈。