计算
MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。
功能集 |
功能 |
功能描述 |
参考文档 |
SQL开发 |
DDL语句 |
DDL语句 |
DDL |
DML操作 |
DML操作 |
DML操作 | |
DQL操作 |
DQL操作 |
DQL操作 | |
函数开发 |
内建函数 |
MaxCompute提供丰富的内建函数,方便用户进行数据分析和数据加工。 |
内建函数 |
自定义函数 |
MaxCompute支持用户自定义函数,支持包括UDF、UDT、UDJ等类型。 |
||
查询加速 MCQA |
查询加速 MCQA |
对数据查询作业进行加速优化,完全兼容原MaxCompute查询功能。 |
MCQA |
物化视图 |
物化视图 |
MaxCompute提供物化视图智能计算加速,为用户智能分析推荐创建物化视图。 |
物化视图 |
扩展引擎 |
机器学习 SQL ML |
SQLML是MaxCompute提供的应用机器学习能力的SQL语言入口。MaxCompute SQLML在底层依赖机器学习PAI平台做模型创建、预测、评估等操作。 |
SQL ML |
MapReduce |
MaxCompute支持MapReduce编程接口,提供原生MapReduce及扩展MapRuduce两个版本编程接口。 |
MapReduce | |
Graph |
MaxCompute Graph是一套面向迭代的图计算处理框架。 |
Graph | |
Spark |
Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持提交运行Spark作业,满足更丰富的数据处理分析需求。 |
Spark | |
向量计算 Proxima CE |
Proxima CE 是基于Proxima2.x内核提供的超大规模离线向量检索引擎,用于支持批量离线向量检索任务,包括基础的向量检索、多类目检索及百万TopK检索等功能。 |
向量计算 Proxima CE | |
数据科学计算 |
PyODPS |
提供Python SDK,可在DataWorks、PAI Notebook或本地环境中使用PyODPS进行开发。 |
PyODPS |
Mars |
基于张量的统一分布式计算框架。Mars能利用并行和分布式技术,为Python数据科学栈加速,兼容Numpy、Pandas和Scikit-learn。 |
数据科学 Mars | |
MaxFrame |
MaxFrame是由阿里云自研的分布式计算框架,提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境 |
MaxFrame | |
镜像管理 |
MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传等流程 |
镜像管理 | |
MaxCompute Notebook |
MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块,为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的融合应用开发。 |
Notebook |
存储
表是MaxCompute的数据存储单元,MaxCompute中不同类型作业的操作对象(输入、输出)都是表;MaxCompute采用列压缩存储格式,通常情况下具备5倍压缩能力;MaxCompute数据存储格式升级为AliORC,具备更高存储性能。
功能集 |
功能 |
功能描述 |
参考文档 |
内部表 |
非分区 |
在采集通道数据量较小的情况下,适合采取非分区表设计,将终端类型和采集时间设计成标准列字段。 |
非分区表 |
分区 |
分区表是指拥有分区空间的表,即在创建表时指定表内的一个或者某几个字段作为分区列。分区表实际就是对应分布式文件系统上的独立的文件夹,一个分区对应一个文件夹,文件夹下是对应分区所有的数据文件。 |
分区表 | |
外部表 |
OSS外部表 |
可以通过OSS外部表访问OSS目录下的数据文件中的非结构化数据,或将MaxCompute项目中的数据写入OSS目录。 |
OSS外部表 |
Tablestore外部表 |
将Tablestore的数据纳入MaxCompute上的计算生态,实现多种数据源之间的无缝连接。 |
Tablestore外部表 | |
Hologres外部表 |
MaxCompute外部表支持使用数据库JDBC驱动机制访问Hologres数据源数据。 |
Hologres外部表 | |
RDS外部表 |
可通过MaxCompute将数据加载至RDS的表中。 |
RDS外部表 | |
HBase外部表 |
MaxCompute支持通过创建HBase外部表来关联阿里云HBase标准版或增强版集群中的表。 |
HBase外部表 |
开发和分析工具
根据业务需要用户可选择连接MaxCompute的开发工具,进行后续MaxCompute的使用及开发操作。
功能集 |
功能 |
功能描述 |
参考文档 |
Odpscmd |
客户端 odpscmd |
MaxCompute提供客户端odpscmd,访问MaxCompute项目并运行命令。 |
客户端 odpscmd |
MC Studio |
MaxCompute Studio |
基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助用户便捷、快速地进行数据分析。 |
MaxCompute Studio |
SQL分析 |
SQL分析 |
MaxCompute控制台提供SQL分析功能,方便用户快速执行SQL语句操作。 |
SQL分析 |
JDBC连接 |
JDBC连接 |
通过标准的JDBC接口基于MaxCompute执行海量数据的分布式计算查询。 |
JDBC连接 |
阿里云产品集成 |
数据开发 DataWorks DataStudio |
基于MaxCompute项目通过DataWorks DataStuido以可视化方式实现全方位的数据开发、数据集成、数据服务等功能,支持周期性调度作业。 |
数据开发 DataWorks DataStudio |
数据分析 SQL查询 |
SQL查询功能支持通过编写SQL语句的方式对有查询权限的数据源进行快速的数据查询与分析。 |
数据分析 SQL查询 | |
第三方工具 |
数据库管理工具 |
通过数据库管理工具连接MaxCompute,目前主要支持DBeaver、DataGrip、SQL Workbench/J。 |
数据库管理工具 |
ETL工具连接 |
通过ETL工具连接MaxCompute并进行开发作业调度,目前主要支持Kettle、Apache Airflow、Azkaban。 |
ETL工具连接 | |
BI工具对接 |
支持Tableau、FineBI、FineReport、Davinci、Superset、Yonghong BI、Quick BI、观远BI、网易有数BI。 |
BI工具对接 |
数据传输迁移
MaxCompute提供多种渠道,以便从业务系统或外部数据源写入数据到MaxCompute,或者从MaxCompute写出数据到外部系统或外部数据源。
功能集 |
功能 |
功能描述 |
参考文档 |
上传数据 |
Tunnel(离线) |
MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载。 |
Tunnel(离线) |
Kafka(离线与实时) |
支持将消息队列Kafka版数据导入MaxCompute。 |
Kafka(离线与实时) | |
Logstash(流式) |
支持将开源Logstash收集的日志数据写入MaxCompute。 |
Logstash(流式) | |
阿里云Flink(流式) |
支持使用Flink在高并发、高QPS场景下写入MaxCompute。 |
阿里云Flink(流式) | |
DataHub(实时) |
DataHub是MaxCompute提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅 (Subscribe)的功能构建基于流式数据的分析和应用。 |
DataHub(实时) | |
SLS投递 |
将日志服务采集的数据投递至MaxCompute。 |
SLS投递 | |
下载数据 |
客户端(odpscmd)或Studio |
MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载。 |
客户端(odpscmd)或Studio |
DataWorks数据下载 |
MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。 |
DataWorks数据下载 | |
数据迁移 |
相关工具 |
支持通过MaxCompute客户端(Tunnel)、DataWorks数据集成(Tunnel)、DTS(Tunnel)、Sqoop(Tunnel)、Kettle(Tunnel)、Flume(DataHub)、Fluentd(DataHub)、LogStash(DataHub)、OGG(DataHub)、MMA等工具进行数据迁移上云。 |
相关工具 |
MMA迁移工具 |
MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,适合大批量数据传输。 |
MMA迁移工具 |
安全&合规&治理
MaxCompute提供完善的项目及数据安全管理,支持对项目内用户配置不同的权限管控策略。
功能集 |
功能 |
功能描述 |
参考文档 |
安全 |
备份与恢复 |
MaxCompute提供数据备份与恢复功能,系统会自动备份数据的历史版本(例如被删除或修改前的数据)并保留一定时间,可以对保留周期内的数据进行快速恢复,避免因误操作丢失数据。 |
备份与恢复 |
数据加密 |
MaxCompute支持通过密钥管理服务KMS(Key Management Service)对数据进行加密存储,提供数据静态保护能力,满足企业监管和安全合规需求。 |
数据加密 | |
管理IP白名单 |
可设置指定IP指定用户访问项目空间。 |
管理IP白名单 | |
数据动态脱敏 |
当项目用户具备查询MaxCompute项目中的某些敏感数据的权限,但又不希望用户能看到完整的敏感数据信息时,可以对查询结果进行数据动态脱敏。 |
数据动态脱敏 | |
审计日志 |
MaxCompute完整地记录用户的各项操作行为,并通过阿里云ActionTrail服务将用户行为日志实时推送给ActionTrail,用户可以在ActionTrail中查看和检索用户行为日志,同时通过ActionTrail将日志投递到日志服务项目或指定的OSS Bucket中。 |
审计日志 | |
权限管理 |
权限管理 |
为确保MaxCompute项目数据的安全性,项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控,确保权限不会过大也不会过小。 |
权限管理 |
治理 |
Information Schema |
MaxCompute的Information Schema是通过在每个阿里云账号下创建名为SYSTEM_CATALOG的项目,并内置INFORMATION_SCHEMA,通过访问该内置Schema提供的只读视图可以查询当前用户所有项目的元数据信息以及使用历史信息,从而进行相关存储和作业优化以及资源容量规划等治理,从而满足并支持用户侧数据治理、合规要求。 |
租户级别Information Schema |
管理&运维
MaxCompute提供用户可视化运维、管理功能,方便用户进行日常产品管理运维工作。
功能集 |
功能 |
功能描述 |
参考文档 |
管理 |
项目管理 |
项目(Project)是MaxCompute的基本组织单元,是进行多用户隔离和访问控制的主要边界。 |
项目管理 |
配额(Quota)管理 |
提供计算资源消耗查看、调整、增删改查等涉及日常资源管理运维相关功能。 |
配额(Quota)管理 | |
成本分析 |
MaxCompute提供按量付费的成本分析功能,从费用出发下钻到用量明细,为关注费用的管理人员提供更便捷的费用分析能力,方便后续进行成本优化。 |
成本分析 | |
租户管理 |
用户可以配置租户级别的能力,包括,租户控制开关,角色,用户,网络以及镜像等。 |
租户管理 | |
运维 |
资源观测 |
查看数据传输服务中共享资源组与包年包月独享资源组的资源使用情况,可以根据项目和需要观测的时间区间去观测各个指标的使用情况。 |
资源观测 |
作业运维 |
MaxCompute提供作业运维管理功能,数据开发人员和管理员可通过MaxCompute控制台的作业运维功能查看历史作业和正在运行的作业,方便了解作业运行详情:包括参数配置、角色授权、Package、Tables、Resources、UDF管理等功能。 |
作业运维 |
数据联邦
MaxCompute支持湖仓一体能力,将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台。
功能集 |
功能 |
功能描述 |
参考文档 |
数据联邦 |
基于Delta Lake或Hudi存储机制实现湖仓一体 |
MaxCompute基于阿里云DLF、RDS、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。 |
基于Delta Lake或Hudi存储机制实现湖仓一体 |
Spark访问湖仓一体外部数据源 |
访问基于Hadoop外部数据源的外部项目。 |
Spark访问湖仓一体外部数据源 | |
基于External Volume处理非结构化数据 |
通过创建External Volume挂载OSS的路径,利用MaxCompute权限管理系统对用户访问External Volume做细粒度的权限控制,同时利用 MaxCompute引擎处理External Volume内部的文件数据。 |
基于External Volume处理非结构化数据 |