2024年

本文为您介绍了MaxCompute 2024年内容更新的最新动态,基于此您可以了解MaxCompute中增加了哪些新功能、语法新特性和权限变更,提升项目开发效率。

MaxCompute的重要功能发布记录请参见产品重大更新

2024年11月更新记录

时间

特性

类别

描述

产品文档

2024-11-29

新增OpenAPI

新说明

新增Quota、项目等相关API。

2024-11-27

新增数据传输服务-分时配置

新说明

您可以在MaxCompute的Quota管理列表查看数据传输服务Quota,并通过分时配置功能设置数据传输服务Quota的并发数。

数据传输服务-分时配置

2024-11-26

新增产品版本发布记录

新说明

本文为您介绍MaxCompute产品功能的发布信息。

产品版本发布记录

2024-11-19

新增基于OBJECT TABLE处理非结构化数据

新说明

本文为您介绍如何使用Object Table对数据湖存储中的非结构化数据及其元信息进行访问。

基于OBJECT TABLE处理非结构化数据

2024-11-19

新增OBJECT TABLE

新说明

MaxCompute推出了Object Table功能,该功能支持数仓计算引擎访问数据湖存储中的非结构化数据及其元信息。本文为您介绍Object Table相关的命令语法和示例。

OBJECT TABLE

2024-11-18

新增Bloomfilter index(Beta版本)

新说明

布隆过滤器(Bloomfilter,简称BF)是一种高效的概率型数据结构,MaxCompute支持使用Bloomfilter index处理大规模数据点查场景,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。本文为您介绍Bloomfilter index的使用说明及示例。

Bloomfilter index(Beta版本)

2024-11-15

新增SUBQUERY_MAPJOIN HINT

新说明

MaxCompute支持子查询操作,部分子查询在执行过程中会被转换成JOIN进行计算。您可以在子查询SUBQUERY语句中使用SUBQUERY_MAPJOIN HINT,以显式指定使用MAPJOIN算法,从而提升子查询的执行效率。本文为您介绍如何使用SUBQUERY_MAPJOIN HINT。

SUBQUERY_MAPJOIN HINT

2024-11-15

新增SQL注释

新说明

为了增强代码的可读性,您可以在MaxCompute SQL代码中增加注释。本文为您介绍MaxCompute SQL单行注释与多行注释的使用说明。

SQL注释

2024-11-15

新增查看表和视图

新说明

本文为您详细介绍查看表相关命令。

查看表和视图

2024-11-15

新增修改表

新说明

本文为您介绍修改表的相关操作命令。

修改表

2024-11-15

新增创建和删除表

新说明

本文为您介绍创建和删除表的相关操作命令。

创建和删除表

2024-11-15

新增Bitmap Index

新说明

Bitmap Index作为一种全新的索引类型,支持在基数较大(存在大量相同值)的列上建立索引,能够提供高效的点值查询和范围查询的能力。本文为您介绍在MaxCompute中如何使用Bitmap Index索引类型。

Bitmap Index(Beta)

2024-11-14

新增JSON_EXPLODE

新说明

MaxCompute JSON_EXPLODE函数支持将JSON数组或JSON对象中的每个元素拆解(展开)成多行记录,本文为您介绍JSON_EXPLODE函数的使用详情以及示例。

JSON_EXPLODE

2024-11-13

新增作业智能诊断

新说明

本文为您介绍MaxCompute SQL作业的智能诊断功能,旨在尽可能提供诊断结果和建议,以协助您解决作业报错问题或提升查询性能,包括如何查看诊断结果和建议,以及解读分析结果。鉴于查询性能受多种因素影响,智能诊断仅提供整体查询性能的部分异常及建议。

作业智能诊断

2024年10月更新记录

时间

特性

类别

描述

产品文档

2024-10-21

新增Go SDK参考

新说明

Go SDK是MaxCompute提供的一套Go编程语言接口,您可以通过该接口使用Go代码来操作和管理MaxCompute服务,例如访问和管理项目、操作数据表和数据传输等。

2024-10-18

新增在DataWorks镜像中安装MaxFrame

新说明

本文将介绍如何在DataWorks的镜像管理中通过自定义镜像安装MaxFrame并进行应用开发,旨在帮助您更迅速地构建开发环境,避免在开发过程中与其他环境版本产生冲突。

在DataWorks镜像中安装MaxFrame

2024-10-16

新增外部项目1.0迁移为湖仓一体2.0方案

新说明

由于湖仓一体1.0的外部项目(简称:外部项目1.0)功能及用法不再发展,且会收敛下线,如果继续使用MaxCompute访问联邦数据源,联邦方案需要升级至湖仓一体2.0。本文介绍了使用湖仓一体2.0开启项目级别元数据支持的Schema开关和SQL语法支持的Schema开关后,存量作业的兼容情况,以及将湖仓一体1.0外部项目的存量作业迁移至湖仓一体2.0外部Schema的不同场景的修改方法,以便于您进行评估和迁移。

外部项目1.0迁移为湖仓一体2.0方案

2024-10-14

新增ODPS-1850001

新说明

本文为您介绍错误码ODPS-1850001: Unsupported feature in session mode的报错场景,并提供对应的解决方案。

ODPS-1850001

2024年09月更新记录

时间

特性

类别

描述

产品文档

2024-09-29

新增存储成本优化

新说明

MaxCompute支持通过设置表或分区的分层存储类型,降低数据存储费用。MaxCompute提供存储成本优化功能,可基于表的最近访问时间,根据默认策略评估当前地域是否有存储降本空间,辅助您进行分层存储策略配置。

分层存储配置优化

2024-09-18

新增GitHub近实时数据同步以及增全量数据一体化分析

新说明

本文介绍如何通过MaxCompute实现GitHub近实时数据同步以及增全量数据一体化分析。

GitHub近实时数据同步以及增全量数据一体化分析

2024-09-05

新增存储容灾费用(按量付费)

新说明

MaxCompute的存储费用包括存储计费和备份存储计费两部分,通过同城容灾功能实现存储容灾后,项目的存储费用将依据存储容灾计费规则来计算,而备份存储的计费方式则维持原状。本文为您介绍存储容灾计费规则详情。

存储容灾费用(按量付费)

2024-09-03

新增跨地域灾备费用(按量计费)

新说明

在使用MaxCompute跨地域灾备功能后,由于涉及跨地域数据复制和跨地域数据存储,将产生相应费用。本文为您介绍相关的计费规则。

跨地域灾备费用(按量计费)

2024-09-03

新增Metabase连接MaxCompute

新说明

MaxCompute提供Metabase Driver(驱动)插件,支持您使用开源的商业智能工具Metabase连接MaxCompute项目,从而理解数据、分析数据,进行数据查询并获取格式化结果(图形化视图),以数据驱动决策。

Metabase连接MaxCompute

2024年08月更新记录

时间

特性

类别

描述

产品文档

2024-08-23

新增项目级别租户资源访问控制

新说明

租户资源(包括外部数据源、网络连接、自定义镜像及配额组)的权限均由租户管理员通过RAM Policy控制。用户在项目中使用归属项目的对象(包括Schema、Table、Role、Instance、Resource、Function、View等),权限由项目管理员通过MaxCompute内的授权方案控制。租户资源对象可以跨项目使用,如果租户资源的管理者不希望某个项目使用其创建的租户资源,则可以通过开启项目级别租户资源访问控制来制定租户资源和项目的授权关系。

项目级别租户资源访问控制

2024-08-16

新增开放存储SDK示例-Python SDK

新说明

MaxCompute支持第三方引擎(如Spark on EMR、StarRocks、Presto、PAI和Hologres)通过SDK调用Storage API直接访问MaxCompute数据,本文为您介绍使用Python SDK访问MaxCompute的代码示例。

开放存储SDK示例-Python SDK

2024-08-16

新增开放存储SDK示例-Java SDK

新说明

MaxCompute支持第三方引擎(如Spark on EMR、StarRocks、Presto、PAI和Hologres)通过SDK调用Storage API直接访问MaxCompute数据,本文为您介绍使用Java SDK访问MaxCompute的代码示例。

开放存储SDK示例-Java SDK

2024-08-15

新增开放存储概述

新说明

为了更好地融入大数据生态,并支持外部引擎访问MaxCompute中的数据,MaxCompute提供了开放存储(Storage API)。第三方主流计算引擎可通过调用Storage API直接访问MaxCompute的底层存储,从而显著提升数据访问和交互效率(本功能处于公测阶段)。

开放存储概述

2024-08-14

新增利用Flink CDC实现数据同步至Delta Table

新说明

MaxCompute为您提供对接Flink CDC的新版插件Connector连接器。您可以通过对接Flink CDC,将数据源(例如MySQL)数据实时同步至MaxCompute的目标表(普通表或Delta表)。本文为您介绍MaxCompute新版插件的能力支持情况与主要操作流程。

利用Flink CDC实现数据同步至Delta Table

2024-08-08

新增使用UNLOAD命令

新说明

MaxCompute支持您将MaxCompute项目中的数据导出至外部存储(OSS、Hologres),以供其他计算引擎使用。本文为您介绍UNLOAD命令的使用方法及具体示例。

使用UNLOAD命令

2024年07月更新记录

时间

特性

类别

描述

产品文档

2024-07-25

新增作业级资源分析最佳实践

新说明

本文以典型场景案例为您介绍如何通过MaxCompute控制台的作业分析功能进行作业级别资源分析,了解作业资源消耗详情,同时为您提供优化作业运行时长的建议。

作业级资源分析最佳实践

2024-07-24

新增部分列更新

新说明

当前Delta Table支持对部分列进行更新。即对表执行插入或更新操作时,只需要在SQL中指定您想修改的目标列及其新数据,而无需包含表中的所有列。插入数据时,未被赋值的列会自动被填充为NULL;更新数据时,未被赋值的列保持不变。在多数场景下可大幅提升执行效率,节省存储成本。本文用具体示例为您展示如何在Delta Table中插入或更新部分列的数据。

部分列更新

2024-07-19

新增湖仓一体2.0使用指南

新说明

MaxCompute提供湖仓一体2.0方案,允许用户建立定义外部数据源元数据和数据访问方式的管理对象,并通过外部Schema映射机制实现直接访问外部数据源Database或Schema范围内的全部表的功能。该方案可以打破数据湖与数据仓库割裂的体系,并将数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力进行融合,助力构建数据湖和数据仓库相融合的数据管理平台(本功能处于公测阶段)。

湖仓一体2.0使用指南

2024-07-15

新增QueryQuota - 获取指定一级Quota组信息

新说明

获取指定一级Quota组信息。

QueryQuota - 获取指定一级Quota组信息

2024-07-01

新增MaxFrame特有API

新说明

本文为您介绍MaxFrame提供的几类特有API,包括Session、Input/Output、Execute及Fetch,用于在MaxFrame任务中进行数据处理。

MaxFrame特有API

2024-07-01

新增MaxFrame API概览

新说明

MaxFrame API包含两大类,一类是为了方便用户进行数据处理,用于兼容各类标准库(如Pandas)的API,另一类是为了任务的分布式执行而引入的MaxFrame特有API。使用MaxFrame的API开发作业,您可以享受到与标准数据库类似的数据操作体验,并将大规模数据处理任务高效地运行在MaxFrame平台上。

MaxFrame API概览

2024-07-01

新增引用第三方包及镜像

新说明

在基于MaxFrame进行Python开发过程中,通常需要引用第三方包或镜像,为方便您的快速使用,MaxFrame支持通过接口方式直接使用已上传的第三方包及镜像。

引用第三方包及镜像

2024-07-01

新增在DataWorks中使用MaxFrame

新说明

DataWorks为MaxCompute项目提供任务调度能力,且已在PyODPS 3节点内置了MaxFrame,您可直接使用DataWorks的PyODPS 3节点开发和运行MaxFrame作业。

在DataWorks中使用MaxFrame

2024-07-01

新增在本地环境中使用MaxFrame

新说明

MaxCompute支持您通过标准MaxFrame SDK(本地MaxFrame客户端)的方式使用MaxFrame,本文为您介绍在本地环境中使用MaxFrame的流程。

在本地环境中使用MaxFrame

2024-07-01

新增自动化打包服务(邀测)

新说明

MaxFrame推出了自动化打包服务,简化了Python开发中第三方包的管理。该服务支持在作业开发时声明所需的外部依赖包,在作业运行时,这些包会自动被打包并集成到作业环境中,无需手动上传,从而减少繁琐的打包管理工作。

自动化打包服务

2024年06月更新记录

时间

特性

类别

描述

产品文档

2024-06-28

新增通过Logview 2.0查看MaxFrame作业

新说明

Logview是MaxCompute作业运行状态信息记录与展现的一个工具,目前已经适配MaxFrame,本文为您介绍如何通过Logview 2.0查看MaxFrame作业的运行信息。

通过Logview 2.0查看MaxFrame作业

2024-06-28

新增常见问题

新说明

本文为您介绍MaxFrame的常见报错问题,帮助您能迅速识别并解决报错问题。

常见问题

2024-06-18

新增行级访问控制

新说明

为了便于控制用户或角色对MaxCompute表中特定数据的访问,MaxCompute提供了行级访问控制功能,通过在原表上定义用户与数据(被允许访问的数据)的匹配规则,控制特定用户或角色仅可见其有权限访问的数据,从而提升数据安全性和合规性。

行级访问控制

2024年05月更新记录

时间

特性

类别

描述

产品文档

2024-05-31

新增Histogram

新说明

MaxCompute优化器支持表中列的Histogram(直方图)统计信息,Histogram用于描述表中的列值在不同值域区间内的分布情况,提供更细粒度的统计值估计能力,可以为优化查询性能提供帮助。

Histogram

2024-05-22

新增云原生大数据计算服务MaxCompute系统权限策略参考

新说明

本文描述云原生大数据计算服务MaxCompute支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。

云原生大数据计算服务 MaxCompute系统权限策略参考

2024-05-22

新增MaxCompute服务关联角色

新说明

服务关联角色(ServiceLinkedRole,简称SLR)是一种可信实体为阿里云服务的RAM角色,可解决跨云服务的授权访问问题。如MaxCompute访问大数据计算平台其他云产品(如Hologres),则需要创建服务关联角色AliyunServiceRoleForMaxComputeIdentityMgmt。

MaxCompute服务关联角色

2024-05-22

新增MaxCompute自定义权限策略参考

新说明

如果系统权限策略不能满足您的要求,您可以创建自定义权限策略实现最小授权。使用自定义权限策略有助于实现权限的精细化管控,是提升资源访问安全的有效手段。

MaxCompute自定义权限策略参考

2024-05-22

新增身份管理

新说明

为确保您的阿里云账号及云资源使用安全,如非必要都应避免直接使用阿里云账号(即主账号)来访问MaxCompute。推荐的做法是使用RAM身份(即RAM用户和RAM角色)来访问MaxCompute。

身份管理

2024-05-16

新增场景实践

新说明

MaxCompute提供用户自定义函数(UDF)及Python(PyODPS和MaxFrame)开发能力,本文为您介绍如何在MaxCompute UDF、PyODPS及MaxFrame作业开发中使用镜像。

场景实践

2024-05-16

新增自定义镜像

新说明

在SQL或Python开发过程中,会存在较为复杂的业务逻辑,依赖三方包众多,引用资源复杂,因此MaxCompute推出自定义镜像管理功能,您可自由、灵活的使用Docker镜像来构建自己所需的完整开发环境,并在MaxCompute SQL、Python(PyODPS或MaxFrame)开发中使用,本文将详细介绍MaxCompute自定义镜像功能使用流程。

自定义镜像

2024-05-16

新增内置镜像

新说明

MaxCompute提供丰富的内置镜像,如数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等,方便您在后续开发中直接引用,从而简化开发流程。本文为您介绍如何查看及使用内置镜像。

内置镜像

2024-05-16

新增镜像管理概述

新说明

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,同时支持上传自定义镜像,您可在SQL UDF、PyODPS及MaxFrame开发等场景中直接引用已有镜像,无需执行繁琐的资源打包、上传等流程。

镜像管理概述

2024-05-13

新增数据实时入仓实践

新说明

为满足业务对数据仓库中高度时效性数据的需求,MaxCompute基于Delta Table实现了分钟级近实时数据写入和主键更新功能,显著提升了数据仓库的数据更新效率。

数据实时入仓实践

2024年04月更新记录

时间

特性

类别

描述

产品文档

2024-04-28

新增MaxCompute近实时增全量一体化架构介绍

新说明

面对当前日益复杂且对数据时效性要求极高的近实时业务场景,MaxCompute基于Delta Table推出了集大规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。

基于Delta Table构建近实时增全量一体化链路架构

2024-04-24

新增基于MaxFrame实现大语言模型数据处理

新说明

相较于昂贵的GPU资源,MaxCompute的海量弹性CPU资源能够成为LLM海量数据处理的资源基础,而MaxFrame分布式计算能力可以帮助您更加高效、便捷地完成LLM数据处理工作。

基于MaxFrame实现大语言模型数据处理

2024-04-24

新增基于MaxFrame实现分布式Pandas处理

新说明

MaxFrame可以在分布式环境下使用与Pandas相同的API来分析数据,通过MaxFrame,您能够以高于开源Pandas数十倍的性能在MaxCompute上快速完成数据分析和计算工作。本文为您介绍如何通过MaxFrame使用常用的Pandas算子。

基于MaxFrame实现分布式Pandas处理

2024-04-23

新增租户属性

新说明

您可以在租户属性页面进行租户级别的操作,包括查看租户ID,用于进行租户级别的资源授权。

租户属性

2024-04-19

新增MaxFrame快速入门

新说明

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。

快速开始

2024-04-03

新增使用MaxCompute控制台(离线)

新说明

MaxCompute控制台提供数据上传功能,支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线(非实时)上传至MaxCompute进行分析处理及相关管理操作。

使用MaxCompute控制台(离线)

2024年03月更新记录

时间

特性

类别

描述

产品文档

2024-03-29

新增操作审计事件数据迁移至MaxCompute

新说明

操作审计(ActionTrail)功能允许您追踪和记录阿里云账号在最近90天内的操作事件。当您需要分析更长时间的操作事件时,可以通过操作审计创建跟踪,将操作事件数据投递至MaxCompute,并对其进行查询和分析。

操作审计事件数据迁移至MaxCompute

2024-03-26

新增Pandas API

新说明

MaxFrame提供了兼容Pandas的API接口,您可以用类似于Pandas的方式来操作MaxCompute中的数据,同时利用MaxCompute强大的分布式计算能力,简化您在大数据环境下的数据处理工作。

Pandas API支持

2024-03-26

新增MaxFrame数据输入输出

新说明

MaxFrame支持直连MaxCompute,允许对MaxCompute中的数据进行高效直接读写操作,运行时无需将数据拉取至本地计算,消除了不必要的本地数据传输,提高了执行效率。

数据输入输出

2024-03-26

新增准备工作

新说明

MaxCompute支持通过标准MaxFrame SDK(本地MaxFrame客户端)、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame,本文为您介绍使用MaxFrame前需要准备的运行环境。

准备工作

2024-03-25

新增StarRocks Connector

新说明

StarRocks Connector通过实现External Catalog机制,无需数据导入或创建外部表即可无缝访问MaxCompute数据源,并执行复杂的SQL查询,提升了数据分析效率并降低了运维难度和成本。

StarRocks Connector

2024-03-22

新增FROM_CHARSET

新说明

MaxCompute FROM_CHARSET支持将指定编码格式的二进制数据转换为UTF-8格式的字符串,以便后续进行计算时使用。

FROM_CHARSET

2024-03-21

新增MaxCompute TIMESTAMP_NTZ数据类型介绍

新说明

MaxCompute 2.0新增了无时区时间戳类型(TIMESTAMP_NTZ),该类型表示不包含时区信息的日期和时间点,所有数据均基于统一的时间基准(如UTC)。相较于其他带有时区的时间戳类型(TIMESTAMP),TIMESTAMP_NTZ无需进行时区转换,因此在比较和运算时更为简便。

MaxCompute TIMESTAMP_NTZ数据类型

2024-03-14

新增基于Flink创建MaxCompute Paimon外表

新说明

MaxCompute支持通过创建Paimon外部表来与存储在OSS上的Paimon表目录建立映射关系,并访问其中的数据。

基于Flink创建MaxCompute Paimon外部表

2024-03-14

新增ECS资源复用版

新说明

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格,旨在将ECS闲置实例转换为可用的MaxCompute计算资源,该方式可以充分利用已有的计算资源,而不需要额外购买新的MaxCompute计算资源,从而在满足大数据处理需求的同时,提高资源利用率并降低总体资源成本。

ECS资源复用版

2024-03-03

新增GetTableInfo - 获取表信息

新说明

获取表信息。

GetTableInfo - 获取表信息

2024年02月更新记录

时间

特性

类别

描述

产品文档

2024-02-27

新增正则表达式

新说明

本文为您介绍MaxCompute SQL中正则表达式支持的元字符、字符组和转义字符。

正则表达式

2024-02-23

新增跨地域灾备

新说明

当您需要保证MaxCompute作业持续运行时,MaxCompute提供跨地域(Region)灾备功能,支持以项目(Project)为单位远程备份数据和元数据,确保备份地点与数据源的地理距离超过一百公里,以提升数据安全性。您能够自定义选择备份目标地域,并监控备份进度。当遇到地域级别的故障时,该功能允许您将项目迅速切换到备份集群地域,并利用已备份的数据恢复业务。

跨地域灾备

2024-02-08

新增镜像管理

新说明

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传等流程。

镜像管理

2024年01月更新记录

时间

特性

类别

描述

产品文档

2024-01-05

新增MaxCompute+DLF+OSS湖仓一体的湖查询和湖数据入仓实践

新说明

MaxCompute、DLF和OSS是阿里云提供的一体化解决方案,可以实现数据湖查询和湖数据入仓。通过配置DLF,将数据从OSS导入到MaxCompute中,并使用MaxCompute进行数据湖查询。该方案可以方便地进行数据分析和处理,并保证数据的可靠性和安全性。

MaxCompute+DLF+OSS湖仓一体的湖查询和湖数据入仓实践