什么是MaxCompute

云原生大数据计算服务MaxCompute(原名ODPS)是阿里云自主研发的集高性价比多模计算企业级安全AI驱动于一体的企业级SaaS化智能云数据仓库(AI-Native Datawarehouse)。

视频简介

产品简介

MaxCompute是面向分析的企业级SaaS模式智能化云数据仓库,以Serverless架构提供全托管、开箱即用的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制。

计算存储的智能优化能力、开放的湖仓一体架构、近实时和交互式查询加速能力以及Data+AI一体化建设,使用户最小化运维投入、经济并高效地分析处理海量数据。

数以万计的企业正基于MaxCompute进行数据计算与分析,将数据高效转换为业务洞察。

产品架构

MaxCompute的架构主要由存储层、计算层和统一的运维管控平台构成,共同构建在多可用区部署的稳固基础设施之上。

  • 存储层通过其存储引擎,整合了由标准、低频、长期等存储类型构成的原生存储体系,并支持开放的湖仓一体(OpenLake)架构。

  • 计算层通过多种引擎支持离线、近实时、Data+AI等多种计算任务。

  • 运维管控层作为平台的管理与控制核心,提供从项目、配额到优先级的资源治理,从资源观测、监控报警到作业诊断的全方位监控,以及完整的安全审计能力。

  • 整个平台通过标准的开发接入接口(如SDK/API/JDBC)与上层的DataWorks、PAI等产品集成。

image

产品优势

  • 高性价比的企业级数仓

    • 简单易用:多服务预集成、标准SQL开发简单,开箱即用。

    • 弹性扩展:Serverless架构存算分离,无需提前规划,灵活弹性,按量付费,可以满足业务突增需求,支持实时根据业务峰谷变化分配资源。

    • 安全稳定:内建完善的访问控制、安全和灾备能力,提供资源观测和作业诊断能力。

    • 高性价比:提供智能分析方案,持续优化性能和成本。

  • 多场景增全量一体计算优化

    • 支持流式写入和近实时分析:基于Delta Table的近实时全增量一体解决方案,支持增量物化视图简化、支持增量计算pipeline构建、支持数据库整库实时同步、Flink流式写入与更新等。

    • MaxQA查询加速升级,28亿行数据查询最快可1秒返回。

    • 离线实时一体化:与实时数仓Hologres深度协同,支持双向数据高速直读,满足在线服务、交互式分析需求。

  • 湖仓一体的开放架构

    • MaxCompute湖仓一体支持OpenLake解决方案,实现同一份OpenLakehouse数据多引擎互访。

    • 支持联邦查询分析,兼容多种主流开源数据格式。

    • 支持通过Storage APIConnectorMaxCompute数据向第三方开源引擎开放,简化计算引擎集成过程。例如SparkMaxCompute计算资源、数据和权限体系深度集成。

  • Data+AI

    • 分布式计算框架MaxFrame,提供Python编程接口,兼容Pandas算子并支持与人工智能PAI无缝集成。

    • MaxFrame内置第三方依赖包及通用模型,用户自定义镜像管理,通过云原生大数据预处理能力,为大模型等AI深度学习场景提供数据AI整合能力。

  • 适用场景广泛

    MaxCompute提供了面向多种计算场景的数据仓库解决方案及分析建模服务,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景,已在阿里巴巴集团内部得到大规模应用。发展历程、产品荣誉及客户案例请参见发展历程客户案例

  • 产品生态丰富

    MaxCompute深度融合阿里云DataWorks实时数仓Hologres人工智能平台PAIQuick BI等产品,满足数据分析场景下的不同需求。MaxCompute融合的更多阿里云产品信息,请参见支持的云服务

    • 基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

    • 基于机器学习平台PAI的算法组件实现对MaxCompute数据进行模型训练等操作。

    • 基于HologresMaxCompute数据进行外表查询加速,也可导出到Hologres交互式分析。

    • 基于Quick BIMaxCompute数据制作成报表,实现数据可视化分析。

核心功能

MaxCompute提供的核心功能如下,详细功能清单请参见功能特性

功能分类

功能描述

数仓基础能力

  • 按需弹性

    阿里云MaxCompute提供开箱即用的全托管数据仓库服务,采用Serverless架构,存算分离,存储和计算资源均可独立扩展、动态扩缩容。无需提前规划容量和预留资源,可从容应对业务突增等变化。

  • SQL开发

    MaxCompute预集成多种服务,用户可使用标准SQL直接进行开发,简单易上手。

多场景计算能力

  • AI计算框架

    • 分布式计算框架MaxFrame支持Python编程接口、兼容Pandas接口且自动分布式计算,适用于大规模数据处理、科学计算、机器学习、AI 开发等场景。

    • MaxCompute支持与人工智能平台PAI无缝集成,基于机器学习平台的算法组件可以实现对MaxCompute数据的模型训练等操作。通过云原生大数据预处理能力,为大模型等AI深度学习场景提供数据AI整合能力。

  • 增全量数据处理

    • 阿里云MaxCompute在原有的离线批处理引擎基础上升级架构,推出了近实时数仓解决方案。基于Delta table实现了增全量数据一体化存储和管理,并且推出了丰富的增量计算能力,同时升级了MaxCompute短查询加速MaxQA(MCQA2.0)以支持查询秒级返回。

    • 基于Delta Table增量表格式,MaxCompute增加了增量物化视图(Materialized View)、Time Travel以及Stream Table等一系列的能力。

  • 离线实时场景能力融合

    实时数仓Hologres深度融合,Hologres支持MaxCompute元数据的批量导入,无需手工创建外表;支持存储层直读,使用HologresMaxCompute数据进行查询加速,性能优化超10倍以上。

开放架构

  • 湖仓一体

    MaxCompute提供湖仓一体2.0方案,允许用户建立定义外部数据源元数据数据访问方式的管理对象,并通过外部Schema映射机制实现直接访问外部数据源DatabaseSchema范围内的全部表的功能。

    该方案可以打破数据湖与数据仓库割裂的体系,并融合数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力,助力构建数据湖和数据仓库相融合的数据管理平台。

  • OpenLake

    MaxCompute全面支持OpenLake解决方案。OpenLake是基于开放可控数据湖仓构建的大数据/搜索/AI一体化解决方案。通过元数据管理平台DLF管理结构化和半/非结构化数据,提供湖仓数据表和文件的安全访问及IO加速。支持多引擎对接和平权协同计算,通过DataWorks统一开发,并保障大规模任务调度。

  • 多引擎访问

    可直接运行MaxCompute SQL任务,也可运行Spark、MapReduce、Graph等三方引擎的任务。

  • 开放存储

    为了更好地融入大数据生态,并支持外部引擎访问MaxCompute中的数据,MaxCompute提供了开放存储(Storage API)。第三方主流计算引擎可通过调用Storage API直接访问MaxCompute的底层存储,从而显著提升数据访问和交互效率。

企业级能力

  • 企业级运管

    提供资源观测作业运维功能,用户可查看各类资源用量和作业详情,及时发现作业的异常情况和问题并通过控制台处理有问题的作业,优化作业的执行计划及资源配置,提高作业的执行效率和性能。

  • 智能化数仓

    • 提供成本优化功能,可基于实际作业请求量和资源配置期望,生成更优的资源配置方案和效果推演,帮助用户优化成本并提高资源利用效率。

    • 提供物化视图智能推荐功能,根据数据表关系,推测影响指数高的物化视图,帮助用户智能实现查询优化,提高用户的计算效率、减少重复计算。

  • 细粒度权限控制

    MaxCompute细化了项目(Project)、资源Quota、网络连接对象(Networklink)以及项目内的表(Table)、函数(Function)、资源(Resource)及实例(Instance)对象的操作,同时还支持对Tunnel下载、敏感数据访问及跨项目访问等行为进行管控。在项目实际运行过程中,可根据人员操作范畴进行精细化授权,为各对象安全提供可靠保障。

安全、容灾与稳定性

  • 容灾容错

    • 同城容灾:当运营商网络、供电系统或IDC基础设施等遭遇灾难性事件导致某个机房服务不可用时,存储容灾机制能够确保数据读写服务不中断且数据不丢失,从而满足RPO=0的数据恢复需求。

    • 跨地域灾备:支持以项目为单位远程备份数据和元数据,确保备份地点与数据源的地理距离超过一百公里,以提升数据安全性。用户可自定义选择备份目标地域,并监控备份进度。当遇到地域级别的故障时,该功能允许项目迅速切换到备份地域,并利用已备份的数据恢复业务。

  • 动态脱敏

    MaxCompute数据脱敏在数据从存储层被读取的瞬间动态执行,保障安全性的同时兼顾性能,确保数据在进入后续的查询、下载、关联及UDF计算等环节前已处于脱敏状态,从而避免敏感数据泄露风险。

    脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。

  • 数据存储加密

    MaxCompute支持以项目为单位,通过密钥管理服务KMS(Key Management Service)对数据进行存储加密,提供数据静态保护能力,满足企业监管和安全合规需求。目前已经支持的加密算法包含AES256、AESCTRRC4。

  • IP白名单

    MaxCompute在安全访问控制基础上,还提供了基于IP白名单的控制方式。当MaxCompute项目开启白名单功能后,仅允许白名单内的设备访问项目空间,非白名单内的设备访问项目空间时,即使拥有正确的AccessKey IDAccessKey Secret,也无法通过鉴权。

  • SLA

    阿里云MaxCompute已在各行各业得到广泛应用,并对客户提供最高99.9%的服务可用性承诺,详情可参见MaxCompute服务等级协议(SLA)

产品动态

更多产品动态参见MaxCompute产品发布动态与公告