企业级大数据计算与分析云数据仓库-云原生大数据计算服务MaxCompute-阿里云

云原生大数据计算服务MaxCompute（原名ODPS）是阿里云自主研发的集高性价比、多模计算、企业级安全和AI驱动于一体的企业级SaaS化智能云数据仓库（AI-Native Datawarehouse）。

视频简介

产品简介

MaxCompute是面向分析的企业级SaaS模式智能化云数据仓库，以Serverless架构提供全托管、开箱即用的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制。

计算存储的智能优化能力、开放的湖仓一体架构、近实时和交互式查询加速能力以及Data+AI一体化建设，使用户最小化运维投入、经济并高效地分析处理海量数据。

数以万计的企业正基于MaxCompute进行数据计算与分析，将数据高效转换为业务洞察。

产品架构

MaxCompute的架构主要由存储层、计算层和统一的运维管控平台构成，共同构建在多可用区部署的稳固基础设施之上。

存储层通过其存储引擎，整合了由标准、低频、长期等存储类型构成的原生存储体系，并支持开放的湖仓一体（OpenLake）架构。
计算层通过多种引擎支持离线、近实时、Data+AI等多种计算任务。
运维管控层作为平台的管理与控制核心，提供从项目、配额到优先级的资源治理，从资源观测、监控报警到作业诊断的全方位监控，以及完整的安全审计能力。
整个平台通过标准的开发接入接口（如SDK/API/JDBC）与上层的DataWorks、PAI等产品集成。

产品优势

高性价比的企业级数仓
- 简单易用：多服务预集成、标准SQL开发简单，开箱即用。
- 弹性扩展：Serverless架构存算分离，无需提前规划，灵活弹性，按量付费，可以满足业务突增需求，支持实时根据业务峰谷变化分配资源。
- 安全稳定：内建完善的访问控制、安全和灾备能力，提供资源观测和作业诊断能力。
- 高性价比：提供智能分析方案，持续优化性能和成本。
多场景增全量一体计算优化
- 支持流式写入和近实时分析：基于Delta Table的近实时全增量一体解决方案，支持增量物化视图简化、支持增量计算pipeline构建、支持数据库整库实时同步、Flink流式写入与更新等。
- MaxQA查询加速升级，28亿行数据查询最快可1秒返回。
- 离线实时一体化：与实时数仓Hologres深度协同，支持双向数据高速直读，满足在线服务、交互式分析需求。
湖仓一体的开放架构
- MaxCompute湖仓一体支持OpenLake解决方案，实现同一份OpenLakehouse数据多引擎互访。
- 支持联邦查询分析，兼容多种主流开源数据格式。
- 支持通过Storage API和Connector将MaxCompute数据向第三方开源引擎开放，简化计算引擎集成过程。例如Spark与MaxCompute计算资源、数据和权限体系深度集成。
Data+AI
- 分布式计算框架MaxFrame，提供Python编程接口，兼容Pandas算子并支持与人工智能PAI无缝集成。
- MaxFrame内置第三方依赖包及通用模型，用户自定义镜像管理，通过云原生大数据预处理能力，为大模型等AI深度学习场景提供数据AI整合能力。
适用场景广泛
MaxCompute提供了面向多种计算场景的数据仓库解决方案及分析建模服务，以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景，已在阿里巴巴集团内部得到大规模应用。发展历程、产品荣誉及客户案例请参见发展历程和客户案例。
产品生态丰富：
MaxCompute深度融合阿里云DataWorks、实时数仓Hologres、人工智能平台PAI、Quick BI等产品，满足数据分析场景下的不同需求。MaxCompute融合的更多阿里云产品信息，请参见支持的云服务。
- 基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。
- 基于机器学习平台PAI的算法组件实现对MaxCompute数据进行模型训练等操作。
- 基于Hologres对MaxCompute数据进行外表查询加速，也可导出到Hologres交互式分析。
- 基于Quick BI将MaxCompute数据制作成报表，实现数据可视化分析。

核心功能

MaxCompute提供的核心功能如下，详细功能清单请参见功能特性。

功能分类	功能描述
数仓基础能力	按需弹性阿里云MaxCompute提供开箱即用的全托管数据仓库服务，采用Serverless架构，存算分离，存储和计算资源均可独立扩展、动态扩缩容。无需提前规划容量和预留资源，可从容应对业务突增等变化。 SQL开发 MaxCompute预集成多种服务，用户可使用标准SQL直接进行开发，简单易上手。
多场景计算能力	AI计算框架分布式计算框架MaxFrame支持Python编程接口、兼容Pandas接口且自动分布式计算，适用于大规模数据处理、科学计算、机器学习、AI 开发等场景。 MaxCompute支持与人工智能平台PAI无缝集成，基于机器学习平台的算法组件可以实现对MaxCompute数据的模型训练等操作。通过云原生大数据预处理能力，为大模型等AI深度学习场景提供数据AI整合能力。增全量数据处理阿里云MaxCompute在原有的离线批处理引擎基础上升级架构，推出了近实时数仓解决方案。基于Delta table实现了增全量数据一体化存储和管理，并且推出了丰富的增量计算能力，同时升级了MaxCompute短查询加速MaxQA（MCQA2.0）以支持查询秒级返回。基于Delta Table增量表格式，MaxCompute增加了增量物化视图（Materialized View）、Time Travel以及Stream Table等一系列的能力。离线实时场景能力融合与实时数仓Hologres深度融合，Hologres支持MaxCompute元数据的批量导入，无需手工创建外表；支持存储层直读，使用Hologres对MaxCompute数据进行查询加速，性能优化超10倍以上。
开放架构	湖仓一体 MaxCompute提供湖仓一体2.0方案，允许用户建立定义外部数据源元数据和数据访问方式的管理对象，并通过外部Schema映射机制实现直接访问外部数据源Database或Schema范围内的全部表的功能。该方案可以打破数据湖与数据仓库割裂的体系，并融合数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力，助力构建数据湖和数据仓库相融合的数据管理平台。 OpenLake MaxCompute全面支持OpenLake解决方案。OpenLake是基于开放可控数据湖仓构建的大数据/搜索/AI一体化解决方案。通过元数据管理平台DLF管理结构化和半/非结构化数据，提供湖仓数据表和文件的安全访问及IO加速。支持多引擎对接和平权协同计算，通过DataWorks统一开发，并保障大规模任务调度。多引擎访问可直接运行MaxCompute SQL任务，也可运行Spark、MapReduce、Graph等三方引擎的任务。开放存储为了更好地融入大数据生态，并支持外部引擎访问MaxCompute中的数据，MaxCompute提供了开放存储（Storage API）。第三方主流计算引擎可通过调用Storage API直接访问MaxCompute的底层存储，从而显著提升数据访问和交互效率。
企业级能力	企业级运管提供资源观测和作业运维功能，用户可查看各类资源用量和作业详情，及时发现作业的异常情况和问题并通过控制台处理有问题的作业，优化作业的执行计划及资源配置，提高作业的执行效率和性能。智能化数仓提供成本优化功能，可基于实际作业请求量和资源配置期望，生成更优的资源配置方案和效果推演，帮助用户优化成本并提高资源利用效率。提供物化视图智能推荐功能，根据数据表关系，推测影响指数高的物化视图，帮助用户智能实现查询优化，提高用户的计算效率、减少重复计算。细粒度权限控制 MaxCompute细化了项目（Project）、资源Quota、网络连接对象（Networklink）以及项目内的表（Table）、函数（Function）、资源（Resource）及实例（Instance）对象的操作，同时还支持对Tunnel下载、敏感数据访问及跨项目访问等行为进行管控。在项目实际运行过程中，可根据人员操作范畴进行精细化授权，为各对象安全提供可靠保障。
安全、容灾与稳定性	容灾容错同城容灾：当运营商网络、供电系统或IDC基础设施等遭遇灾难性事件导致某个机房服务不可用时，存储容灾机制能够确保数据读写服务不中断且数据不丢失，从而满足RPO=0的数据恢复需求。跨地域灾备：支持以项目为单位远程备份数据和元数据，确保备份地点与数据源的地理距离超过一百公里，以提升数据安全性。用户可自定义选择备份目标地域，并监控备份进度。当遇到地域级别的故障时，该功能允许项目迅速切换到备份地域，并利用已备份的数据恢复业务。动态脱敏 MaxCompute数据脱敏在数据从存储层被读取的瞬间动态执行，保障安全性的同时兼顾性能，确保数据在进入后续的查询、下载、关联及UDF计算等环节前已处于脱敏状态，从而避免敏感数据泄露风险。脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略，支持与数据保护伞的数据分类分级功能联动，满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。数据存储加密 MaxCompute支持以项目为单位，通过密钥管理服务KMS（Key Management Service）对数据进行存储加密，提供数据静态保护能力，满足企业监管和安全合规需求。目前已经支持的加密算法包含AES256、AESCTR和RC4。 IP白名单 MaxCompute在安全访问控制基础上，还提供了基于IP白名单的控制方式。当MaxCompute项目开启白名单功能后，仅允许白名单内的设备访问项目空间，非白名单内的设备访问项目空间时，即使拥有正确的AccessKey ID及AccessKey Secret，也无法通过鉴权。 SLA 阿里云MaxCompute已在各行各业得到广泛应用，并对客户提供最高99.9%的服务可用性承诺，详情可参见MaxCompute服务等级协议（SLA）。

产品动态

更多产品动态参见MaxCompute产品发布动态与公告。