产品核心功能特性全面详解-云原生大数据计算服务 MaxCompute-阿里云

计算

MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。

功能集	功能	功能描述	参考文档
SQL开发	DDL语句	DDL语句	DDL
	DML操作	DML操作	DML操作
	DQL操作	DQL操作	DQL操作
函数开发	内建函数	MaxCompute提供丰富的内建函数，方便用户进行数据分析和数据加工。	内建函数
函数开发	自定义函数	MaxCompute支持用户自定义函数，支持包括UDF、UDT、UDJ等类型。	UDF UDT UDJ
查询加速 MCQA	查询加速 MCQA	对数据查询作业进行加速优化，完全兼容原MaxCompute查询功能。	MCQA
物化视图	物化视图	MaxCompute提供物化视图智能计算加速，为用户智能分析推荐创建物化视图。	物化视图
扩展引擎	机器学习 SQL ML	SQLML是MaxCompute提供的应用机器学习能力的SQL语言入口。MaxCompute SQLML在底层依赖机器学习PAI平台做模型创建、预测、评估等操作。	SQL ML
	MapReduce	MaxCompute支持MapReduce编程接口，提供原生MapReduce及扩展MapRuduce两个版本编程接口。	MapReduce
	Graph	MaxCompute Graph是一套面向迭代的图计算处理框架。	Graph
	Spark	Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持提交运行Spark作业，满足更丰富的数据处理分析需求。	Spark
	向量计算 Proxima CE	Proxima CE 是基于Proxima2.x内核提供的超大规模离线向量检索引擎，用于支持批量离线向量检索任务，包括基础的向量检索、多类目检索及百万TopK检索等功能。	向量计算 Proxima CE
数据科学计算	PyODPS	提供Python SDK，可在DataWorks、PAI Notebook或本地环境中使用PyODPS进行开发。	-
	Mars	基于张量的统一分布式计算框架。Mars能利用并行和分布式技术，为Python数据科学栈加速，兼容Numpy、Pandas和Scikit-learn。	数据科学 Mars
	MaxFrame	MaxFrame是由阿里云自研的分布式计算框架，提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境	MaxFrame
	镜像管理	MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像，无需执行繁琐的镜像打包、上传等流程	镜像管理
	MaxCompute Notebook	MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块，为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。	Notebook
近实时数仓	DeltaTable增量表格式		Delta Table

存储

表是MaxCompute的数据存储单元，MaxCompute中不同类型作业的操作对象（输入、输出）都是表；MaxCompute采用列压缩存储格式，通常情况下具备5倍压缩能力；MaxCompute数据存储格式升级为AliORC，具备更高存储性能。

功能集	功能	功能描述	参考文档
内部表	非分区	在采集通道数据量较小的情况下，适合采取非分区表设计，将终端类型和采集时间设计成标准列字段。	非分区表
内部表	分区	分区表是指拥有分区空间的表，即在创建表时指定表内的一个或者某几个字段作为分区列。分区表实际就是对应分布式文件系统上的独立的文件夹，一个分区对应一个文件夹，文件夹下是对应分区所有的数据文件。	分区表
外部表	OSS外部表	可以通过OSS外部表访问OSS目录下的数据文件中的非结构化数据，或将MaxCompute项目中的数据写入OSS目录。	OSS外部表
	Tablestore外部表	将Tablestore的数据纳入MaxCompute上的计算生态，实现多种数据源之间的无缝连接。	Tablestore外部表
	Hologres外部表	MaxCompute外部表支持使用数据库JDBC驱动机制访问Hologres数据源数据。	Hologres外部表
	RDS外部表	可通过MaxCompute将数据加载至RDS的表中。	RDS外部表
	HBase外部表	MaxCompute支持通过创建HBase外部表来关联阿里云HBase标准版或增强版集群中的表。	HBase外部表

开发和分析工具

根据业务需要用户可选择连接MaxCompute的开发工具，进行后续MaxCompute的使用及开发操作。

功能集	功能	功能描述	参考文档
Odpscmd	客户端 odpscmd	MaxCompute提供客户端odpscmd，访问MaxCompute项目并运行命令。	客户端 odpscmd
MC Studio	MaxCompute Studio	基于流行的集成开发平台IntelliJ IDEA的开发插件，帮助用户便捷、快速地进行数据分析。	MaxCompute Studio
SQL分析	SQL分析	MaxCompute控制台提供SQL分析功能，方便用户快速执行SQL语句操作。	SQL分析
JDBC连接	JDBC连接	通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询。	JDBC连接
阿里云产品集成	数据开发 DataWorks DataStudio	基于MaxCompute项目通过DataWorks DataStuido以可视化方式实现全方位的数据开发、数据集成、数据服务等功能，支持周期性调度作业。	-
阿里云产品集成	数据分析 SQL查询	SQL查询功能支持通过编写SQL语句的方式对有查询权限的数据源进行快速的数据查询与分析。	数据分析 SQL查询
第三方工具	数据库管理工具	通过数据库管理工具连接MaxCompute，目前主要支持DBeaver、DataGrip、SQL Workbench/J。	数据库管理工具
	ETL工具连接	通过ETL工具连接MaxCompute并进行开发作业调度，目前主要支持Kettle、Apache Airflow、Azkaban。	ETL工具连接
	BI工具对接	支持Tableau、FineBI、FineReport、Davinci、Yonghong BI、Quick BI、观远BI、网易有数BI。	BI工具对接

数据传输迁移

MaxCompute提供多种渠道，以便从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。

功能集	功能	功能描述	参考文档
上传数据	Tunnel（离线）	MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载。	Tunnel（离线）
	Kafka（离线与实时）	支持将消息队列Kafka版数据导入MaxCompute。	Kafka（离线与实时）
	Logstash（流式）	支持将开源Logstash收集的日志数据写入MaxCompute。	Logstash（流式）
	阿里云Flink（流式）	支持使用Flink在高并发、高QPS场景下写入MaxCompute。	阿里云Flink（流式）
	DataHub（实时）	DataHub是MaxCompute提供的流式数据处理（Streaming Data）服务，它提供流式数据的发布（Publish）和订阅（Subscribe）的功能构建基于流式数据的分析和应用。	DataHub（实时）
	SLS投递	将日志服务采集的数据投递至MaxCompute。	SLS投递
下载数据	客户端（odpscmd）或Studio	MaxCompute的客户端（odpscmd）、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载。	客户端（odpscmd）或Studio
下载数据	DataWorks数据下载	MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。	DataWorks数据下载
数据迁移	相关工具	支持通过MaxCompute客户端（Tunnel）、DataWorks数据集成（Tunnel）、DTS（Tunnel）、Sqoop（Tunnel）、Kettle（Tunnel）、Flume（DataHub）、Fluentd（DataHub）、LogStash（DataHub）、OGG（DataHub）、MMA等工具进行数据迁移上云。	相关工具
数据迁移	MMA迁移工具	MMA（MaxCompute Migration Assist）是一款MaxCompute数据迁移工具，适合大批量数据传输。	MMA迁移工具

安全&合规&治理

MaxCompute提供完善的项目及数据安全管理，支持对项目内用户配置不同的权限管控策略。

功能集	功能	功能描述	参考文档
安全	备份与恢复	MaxCompute提供数据备份与恢复功能，系统会自动备份数据的历史版本（例如被删除或修改前的数据）并保留一定时间，可以对保留周期内的数据进行快速恢复，避免因误操作丢失数据。	备份与恢复
	数据加密	MaxCompute支持通过密钥管理服务KMS（Key Management Service）对数据进行加密存储，提供数据静态保护能力，满足企业监管和安全合规需求。	数据加密
	管理IP白名单	可设置指定IP指定用户访问项目空间。	管理IP白名单
	数据动态脱敏	当项目用户具备查询MaxCompute项目中的某些敏感数据的权限，但又不希望用户能看到完整的敏感数据信息时，可以对查询结果进行数据动态脱敏。	数据动态脱敏
	审计日志	MaxCompute完整地记录用户的各项操作行为，并通过阿里云ActionTrail服务将用户行为日志实时推送给ActionTrail，用户可以在ActionTrail中查看和检索用户行为日志，同时通过ActionTrail将日志投递到日志服务项目或指定的OSS Bucket中。	审计日志
权限管理	权限管理	为确保MaxCompute项目数据的安全性，项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控，确保权限不会过大也不会过小。	权限管理
治理	Information Schema	MaxCompute的Information Schema是通过在每个阿里云账号下创建名为SYSTEM_CATALOG的项目，并内置INFORMATION_SCHEMA，通过访问该内置Schema提供的只读视图可以查询当前用户所有项目的元数据信息以及使用历史信息，从而进行相关存储和作业优化以及资源容量规划等治理，从而满足并支持用户侧数据治理、合规要求。	租户级别Information Schema

企业级管理&运维

MaxCompute提供用户可视化运维、智能数仓、管理功能，方便用户进行日常产品管理运维工作。

功能集	功能	功能描述	参考文档
管理	项目管理	项目（Project）是MaxCompute的基本组织单元，是进行多用户隔离和访问控制的主要边界。	项目管理
	配额（Quota）管理	提供计算资源消耗查看、调整、增删改查等涉及日常资源管理运维相关功能。	配额（Quota）管理
	成本分析	MaxCompute提供按量付费的成本分析功能，从费用出发下钻到用量明细，为关注费用的管理人员提供更便捷的费用分析能力，方便后续进行成本优化。	成本分析
	租户管理	用户可以配置租户级别的能力，包括，租户控制开关，角色，用户，网络以及镜像等。	租户管理
运维	资源观测	查看数据传输服务中共享资源组与包年包月独享资源组的资源使用情况，可以根据项目和需要观测的时间区间去观测各个指标的使用情况。	资源观测
运维	作业运维	MaxCompute提供作业运维管理功能，数据开发人员和管理员可通过MaxCompute控制台的作业运维功能查看历史作业和正在运行的作业，方便了解作业运行详情：包括参数配置、角色授权、Package、Tables、Resources、UDF管理等功能。	作业运维
智能数仓	计算资源配置优化	当您需要在保证作业完成的前提下降低包年包月规格计算资源的费用或遇到基于现有资源配置作业完成时间达不到预期的情况时，MaxCompute为您提供计算成本优化功能，可基于实际作业请求量和资源配置期望，对包年包月一级Quota类型的计算资源生成更优的资源配置方案，也支持查看当前使用按量付费计算资源的项目调整为使用包年包月计算资源的资源配置推荐方案及效果推演，帮助您进一步优化计算成本和提高资源利用效率。	-
	分层存储配置优化	MaxCompute支持通过设置表或分区的分层存储类型，降低数据存储费用。MaxCompute提供分层存储配置优化功能，可基于表的最近访问时间，根据默认策略或自定义策略评估当前地域是否有存储降本空间，辅助您进行分层存储策略配置。	-
	物化视图推荐与管理	为了提高用户的计算效率、减少重复计算，同时加速用户计算。MaxCompute提供物化视图智能计算加速，为您智能分析推荐创建物化视图。	-
	自动物化视图（AutoMV）	随着MaxCompute的深入使用，会出现对MaxCompute表执行多次重复查询的情况，并且不同使用者之间互不知晓对方也在采用相同的计算逻辑。为了提高用户的计算效率、减少重复计算，同时加速用户计算，MaxCompute提供自动物化视图（AutoMV）能力，根据用户作业查询习惯和性能自动创建物化视图。	-
	聚簇优化推荐	MaxCompute支持对表近期的读写特征进行分析，并生成相应的聚簇建议，以帮助您提升作业性能并降低CU消耗。您可根据聚簇后的预估收益和推荐详情决定是否应用系统推荐的聚簇建议。	-

数据联邦

MaxCompute支持湖仓一体能力，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力构建数据湖和数据仓库相融合的数据管理平台。

功能集	功能	功能描述	参考文档
数据联邦	基于Delta Lake或Hudi存储机制实现湖仓一体	MaxCompute基于阿里云DLF、RDS、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。	基于Delta Lake或Hudi存储机制实现湖仓一体
	Spark访问湖仓一体外部数据源	访问基于Hadoop外部数据源的外部项目。	Spark访问湖仓一体外部数据源
	基于External Volume处理非结构化数据	通过创建External Volume挂载OSS的路径，利用MaxCompute权限管理系统对用户访问External Volume做细粒度的权限控制，同时利用 MaxCompute引擎处理External Volume内部的文件数据。	基于External Volume处理非结构化数据