文档

2023年

更新时间:

本文为您介绍了MaxCompute 2023年内容更新的最新动态,基于此您可以了解MaxCompute中增加了哪些新功能、语法新特性和权限变更,提升项目开发效率。

MaxCompute的重要功能发布记录请参见产品重大更新

2023年12月更新记录

时间

特性

类别

描述

产品文档

2023-12-11

新增ListJobInfos - 查看作业列表

新说明

查看作业列表。

ListJobInfos - 查看作业列表

2023-12-04

新增SKEWJOIN HINT

新说明

当两张表Join存在热点,导致出现长尾问题时,您可以通过取出热点key,将数据分为热点数据和非热点数据两部分处理,最后合并的方式,提高Join效率。SkewJoin Hint可以通过自动或手动方式获取两张表的热点key,分别计算热点数据和非热点数据的Join结果并合并,加快Join的执行速度。

SKEWJOIN HINT

2023年11月更新记录

时间

特性

类别

描述

产品文档

2023-11-24

新增迁移服务(MMA)

新说明

MaxCompute提供的数据迁移服务支持通过MMA(MaxCompute Migration Assist)服务,将Hive数据安全且高效地迁移到MaxCompute。

迁移服务(MMA)

2023-11-10

新增分层存储

新说明

MaxCompute分层存储支持标准存储、低频存储和长期存储,默认情况下为标准存储。您可以根据数据的访问频率,将某些表或分区的存储类型设置为低频存储或长期存储,以降低数据存储费用。

分层存储

2023年10月更新记录

时间

特性

类别

描述

产品文档

2023-10-30

新增Spark Connector

新说明

本文为您介绍如何使用第三方计算引擎Spark通过Spark Connector调用Storage API来访问MaxCompute。

Spark Connector

2023-10-27

新增数据科学计算概述

新说明

MaxFrame是由阿里云自研的分布式科学计算框架是对历史相关产品功能(PyODPS、Mars)的重大升级,在MaxCompute之上提供一套完全兼容Pandas接口的API,让用户用更为熟悉、更符合Python社群习惯的方式使用MaxCompute。本文为您介绍MaxCompute提供的Python开发生态的背景信息及发展路径。

数据科学计算概述

2023-10-27

新增MaxFrame概述

新说明

MaxFrame是由阿里云自研的分布式计算框架,提供了一套兼容MaxCompute计算资源及数据接口的Python生态环境。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。

MaxFrame概述

2023-10-27

新增打印UDF日志

新说明

在开发UDF的过程中打印日志有助于用户进行UDF代码调试,本文为您介绍在MaxCompute中如何打印及查看UDF日志。

打印UDF日志

2023-10-20

新增ENHANCED_SYM_ENCRYPT

新说明

本文为您介绍如何使用ENHANCED_SYM_ENCRYPT函数指定密钥集进行数据加密。

ENHANCED_SYM_ENCRYPT

2023-10-20

新增ENHANCED_SYM_DECRYPT

新说明

本文为您介绍如何使用ENHANCED_SYM_DECRYPT函数指定密钥集进行数据解密。

ENHANCED_SYM_DECRYPT

2023-10-20

新增密钥集(KEYSET)使用说明

新说明

MaxCompute的密钥管理对象Keyset,每个Keyset可以存放1个到多个密钥,您可以在Keyset中增加密钥来实现密钥的轮转,并且可以查看原始密钥。本文介绍KeySet的使用。

密钥集(KEYSET)使用说明

2023-10-20

新增USE_WRAPPED_KEYSET

新说明

MaxCompute支持结合密钥管理服务(KMS)做密钥管理,本文为您介绍封装密钥集函数USE_WRAPPED_KEYSET:将封装密钥集转换为基础密钥集,作为加解密函数的参数用于加解密数据。

USE_WRAPPED_KEYSET

2023-10-20

新增ROTATE_WRAPPED_KEYSET

新说明

MaxCompute支持结合密钥管理服务(KMS)做密钥管理,本文为您介绍封装密钥集函数ROTATE_WRAPPED_KEYSET:解密已有的加密密钥集(KEYSET),并进行密钥轮转,然后通过新密钥加密。

ROTATE_WRAPPED_KEYSET

2023-10-20

新增REWRAP_KEYSET

新说明

MaxCompute支持结合密钥管理服务(KMS)做密钥管理,本文为您介绍封装密钥集函数REWRAP_KEYSET:通过指定的KMS密钥重新加密封装密钥集(KEYSET)。

REWRAP_KEYSET

2023-10-20

新增ROTATE_KEYSET

新说明

系统自动生产一个新密钥并将新密钥设置为主密钥。

ROTATE_KEYSET

2023-10-20

新增KEYSET_FROM_JSON

新说明

将JSON类型的keyset转化为BINARY类型。

KEYSET_FROM_JSON

2023-10-20

新增NEW_WRAPPED_KEYSET

新说明

MaxCompute支持结合密钥管理服务(KMS)做密钥管理,本文为您介绍如何使用封装密钥集函数NEW_WRAPPED_KEYSET创建封装密钥集。

NEW_WRAPPED_KEYSET

2023-10-20

新增KEYSET_TO_JSON

新说明

将BINARY类型的密钥Keyset转化为可读的JSON格式,以便查看密钥Keyset详情。

KEYSET_TO_JSON

2023-10-20

新增ADD_KEY_TO_KEYSET

新说明

在Keyset中新增密钥,并将新增的密钥设置为主密钥。

ADD_KEY_TO_KEYSET

2023-10-20

新增NEW_KEYSET

新说明

根据指定的算法类型,创建对应的密钥Keyset。

NEW_KEYSET

2023-10-19

新增数据传输费用(按时计费)

新说明

本文为您介绍MaxCompute的数据传输服务基于独享资源组做按时计费的规则。

数据传输费用(按时计费)

2023-10-13

新增GetQuotaSchedule - 获取Quota时间计划信息

新说明

获取Quota时间计划信息。

GetQuotaSchedule - 获取Quota时间计划信息

2023-10-13

新增JSON_INSERT

新说明

在JSON文件指定位置中新增JSON值。

JSON_INSERT

2023-10-13

新增JSON_SET

新说明

替换JSON文件指定位置的值或新增对应的值。

JSON_SET

2023-10-09

新增Sugar BI连接MaxCompute

新说明

Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台,MaxCompute支持您将MaxCompute项目数据接入Sugar BI,帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用Sugar BI连接MaxCompute项目,并进行可视化数据分析。

Sugar BI连接MaxCompute

2023年9月更新记录

时间

特性

类别

描述

产品文档

2023-09-27

新增TPC-DS性能测试

新说明

MaxCompute适用于TB、PB和EB等各个数量级的数据查询场景,并在业界具有较大的性能优势,本文基于MaxCompute提供的公开数据集及测试工具,以大数据基准测试TPC-DS为例为您验证MaxCompute的性能。

TPC-DS性能测试

2023-09-25

新增MapReduce支持SQL运行时执行模式

新说明

MaxCompute新增支持将MapReduce作业指定为SQL运行时(Runtime)执行模式,基于SQL运行时,MapReduce作业可以应用SQL引擎的各种新特性,实现之前不支持的功能。本文为您介绍如何将MapReduce作业指定为SQL运行时执行模式。

MapReduce支持SQL运行时执行模式

2023-09-21

新增使用do-while节点实现复杂的数据分析

新说明

本文以统计电商行业中的订单数据为示例,为您介绍如何使用do-while节点。

使用do-while节点实现复杂的数据分析

2023-09-20

新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移

新说明

本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移,包括两种使用场景:同云账号内不同Region的项目数据迁移;不同云账号间不同Region的项目数据迁移。

通过跨项目数据访问实现不同地域MaxCompute项目数据迁移

2023-09-20

新增使用CLONE TABLE实现同地域MaxCompute跨项目数据迁移

新说明

本文为您介绍如何通过CLONE TABLE功能实现同Region的MaxCompute项目数据迁移,包含两种使用场景:同Region同云账号内不同项目的数据迁移和同Region不同云账号间的项目数据迁移。

使用CLONE TABLE实现同地域MaxCompute跨项目数据迁移

2023-09-15

新增功能特性

新说明

本文为您介绍MaxCompute的功能特性。

功能特性

2023-09-15

新增Paimon外部表

新说明

MaxCompute支持在项目中创建Paimon外部表,将其与存储在OSS上的Paimon表目录建立映射关系。通过Paimon外部表,您可以访问存储在OSS上的Paimon表中的数据。本文介绍如何创建Paimon外部表。

Paimon外部表

2023-09-14

新增授权实践

新说明

为确保MaxCompute项目数据的安全性,项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控,确保权限不会过大也不会过小。本文为您介绍MaxCompute的权限管理案例。

授权实践

2023-09-14

新增(邀测)MaxCompute Notebook使用说明

新说明

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块,为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。

(邀测)MaxCompute Notebook使用说明

2023-09-12

新增在本地环境上使用PyODPS

新说明

PyODPS是阿里云开发的Python SDK,用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。

在本地环境上使用PyODPS

2023-09-01

新增Lambda函数

新说明

Lambda是一种匿名函数,不需要命名,可以作为参数传递给其他函数或方法。本文介绍Lambda函数的使用限制、语法和使用示例。

Lambda函数

2023年8月更新记录

时间

特性

类别

描述

产品文档

2023-08-25

新增使用成本优化功能实现降本增效

新说明

MaxCompute为您提供成本优化(计算成本优化)功能,可基于实际作业请求量和资源配置期望,对包年包月一级Quota类型的计算资源生成更优的资源配置方案,帮助您进一步优化计算成本。本文通过典型场景案例介绍如何通过成本优化(计算资源优化推荐)功能,为您提供降本增效的参考建议。

使用成本优化功能实现降本增效

2023-08-24

新增GetRunningJobs - 获取运行态的作业列表

新说明

指定时间范围内,所有仍处于“运行中”的作业的运行态数据展示。

GetRunningJobs - 获取运行态的作业列表

2023-08-24

新增GetJobResourceUsage - 获得作业执行者级别的资源使用列表

新说明

指定时间范围内,针对已结束的全部作业进行统计,以“天”为级别展示作业执行者级别的资源使用总量。

GetJobResourceUsage - 获得作业执行者级别的资源使用列表

2023-08-24

新增KillJobs - 终止作业

新说明

终止正在运行的作业。

KillJobs - 终止作业

2023-08-18

新增成本分析

新说明

MaxCompute计费模式有包年包月和按量计费,其中按量计费基本为日账单,MaxCompute新增成本分析功能,从费用出发下钻到用量明细,为关注费用的管理人员提供更便捷的费用分析能力。本文为您介绍如何使用MaxCompute成本分析功能。

成本分析

2023-08-09

新增公开数据集概述

新说明

如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接查询公开数据集中的表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。

公开数据集概述

2023-08-01

新增作业运行常见问题

新说明

本文为您介绍MaxCompute作业运行过程中的常见问题。

作业运行常见问题

2023-08-01

新增Github公开事件数据

新说明

本文为您介绍MaxCompute公开数据集中Github公开事件数据的基本信息、如何通过MaxCompute执行Github公开事件数据查询以及Query样例和分析结果。

Github公开事件数据

2023年7月更新记录

时间

特性

类别

描述

产品文档

2023-07-31

新增简单用户画像分析(MaxCompute版)

新说明

本文以网站用户画像分析为背景,通过使用DataWorks完成数据采集、数据加工、配置数据质量监控、数据可视化展现的场景。

2023-07-31

新增MaxCompute服务不可用赔付案例说明

新说明

MaxCompute计划于北京时间2023年09月01日变更服务等级协议(SLA),为了使您更加清楚新版SLA协议中各项服务可用性及赔偿标准的计算方式,本文为您介绍不同场景下发生服务不可用时的案例说明。

MaxCompute服务不可用赔付案例说明

2023-07-25

新增MaxCompute停止服务规格转换操作指引

新说明

阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务您需要将这些版本的计算资源转换为标准计算资源。本文为您介绍如何转换为标准计算资源。

MaxCompute停止服务规格转换操作指引

2023-07-19

新增使用命令行(odpscmd)连接

新说明

MaxCompute基于阿里云云命令行,为您提供云上客户端环境,您无需手动安装即可通过云命令行工具使用客户端(odpscmd)。本文为您介绍MaxCompute的云命令行(odpscmd)的使用注意事项和简单示例。

使用云命令行(odpscmd)连接

2023-07-17

新增按量付费闲时版

新说明

MaxCompute提供单价更低的按量付费计算资源规格类型(按量付费闲时版),为您降低在延迟不敏感场景下使用MaxCompute的成本。本文为您介绍MaxCompute按量付费闲时版的应用场景、资源说明和计费说明,并帮助您了解注意事项和使用方法。

按量付费闲时版

2023-07-17

新增PyODPS DataFrame的代码运行环境

新说明

使用PyODPS DataFrame编写数据应用时,同一个脚本文件中的代码会在不同位置执行,可能导致一些无法预期的问题,本文为您介绍当出现相关问题时,如何确定代码的执行环境,以及提供部分场景下的解决方案。

PyODPS DataFrame的代码运行环境

2023-07-04

新增UDF开发示例汇总

新说明

本文为您汇总典型场景下的UDF示例。

UDF开发示例汇总

2023-07-03

新增Split Size Hint

新说明

MaxCompute支持通过调整Split Size控制并发度,调整计算性能。Split Size功能可以作用到表级别。指定的值单位为MB,默认值为256MB。

Split Size Hint

2023年6月更新记录

时间

特性

类别

描述

产品文档

2023-06-30

新增JSON函数

新说明

介绍JSON类型相关的JSON函数。

2023-06-29

新增MaxCompute JSON类型使用指南(试用Beta版本)

新说明

MaxCompute当前支持了JSON数据类型,提高了表中带有JSON类型数据的计算和分析的性能,本文为您介绍JSON类型的使用方法。

MaxCompute JSON类型使用指南(试用Beta版本)

2023-06-26

新增增量查询

新说明

Transactional Table 2.0支持增量写入和存储,最重要的一个考虑就是支持增量查询以及增量计算优化,为此,专门设计开发了新的SQL增量查询语法来支持近实时增量处理链路。

增量查询

2023-06-26

新增事务管理

新说明

对DTT(Delta Transactional Table)的所有数据修改操作,都会由MetaService统一进行事务管理,满足ACID特性,应用MVCC模型来保障读写快照隔离,采用OCC模型进行乐观事务并发控制。

事务管理

2023-06-26

新增TimeTravel

新说明

基于Transactional Table 2.0,计算引擎可高效支持TimeTravel查询的典型业务场景,即查询历史版本的数据,可用于回溯历史状态的业务数据,或数据出错时,用来恢复历史状态数据进行数据纠正,当然也支持直接使用restore操作恢复到指定的历史版本。

TimeTravel

2023-06-26

新增SQL处理优化

新说明

为了方便用户操作Transactional Table 2.0,MaxCompute计算引擎对SQL全套的数据查询DQL语法和数据操作DML语法进行了支持,并且SQL引擎内核模块包括Compiler、Optimizer、Runtime等都做了专门适配开发以支持相关功能和优化。本文为您介绍数据查询DQL和数据操作DML的架构设计核心要点。

SQL处理优化

2023-06-26

新增数据组织优化

新说明

本文为您介绍Transactional Table 2.0在数据组织优化服务上的架构设计。

数据组织优化

2023-06-26

新增TimeTravel查询与Incremental查询

新说明

对于Transaction Table2.0类型的表,MaxCompute支持查询回溯到源表某个历史时间或者版本进行历史Snapshot查询(TimeTravel查询),也支持指定源表某个历史时间区间或者版本区间进行历史增量查询(Incremental查询)。本文为您介绍Transaction Table2.0的查询使用说明和使用限制。

TimeTravel查询与Incremental查询

2023-06-26

新增近实时增量导入

新说明

数据流入Transactional Table 2.0主要存在近实时增量写入和批量写入两种场景,本文为您介绍高并发近实时增量写入场景的架构设计。

近实时增量导入

2023-06-26

新增表数据格式

新说明

为了支持增全量存储和处理一体化架构,Transaction Table2.0(简称TT2)设计了统一的表数据组织格式,既可支持MaxCompute普通表的所有功能,同时也能很好的支持增量处理链路的新场景,包括timetravel查询、upsert操作等。本文为您介绍Transaction Table2.0的表数据格式详情。

表数据格式

2023-06-26

新增整体架构

新说明

Transaction Table2.0的增量存储和处理架构的特殊设计主要集中在五个模块:数据接入、计算引擎、数据优化服务、元数据管理、数据文件组织,其他部分与MaxCompute通用的架构一致。本文为您介绍Transaction Table2.0的核心架构要点。

整体架构

2023-06-26

新增COMPACTION

新说明

Compaction可以把所有的数据文件按照一定策略进行Merge操作,可提升查询效率。

COMPACTION

2023-06-26

新增使用Flink(流式数据传输-新版)

新说明

当前MaxCompute为您提供了新版的Flink Connector插件,新版插件支持将Flink数据写入至MaxCompute的普通表和Transaction Table2.0类型表,提高了Flink数据写入MaxCompute的便捷性。本文为您介绍新版Flink Connector写入MaxCompute的能力支持情况与主要操作流程。

使用Flink(流式数据传输-新版)

2023-06-26

新增基本操作

新说明

Transaction Table2.0 支持更多能力,同时在DDL,DML和DQL以及数据管理上都有很多独特的方式,本文为您汇总介绍Transaction Table2.0相关的主要操作。

基本操作

2023-06-26

新增Transaction Table2.0概述

新说明

随着当前数据处理业务场景日趋复杂,很多业务场景并不要求延时秒级更新可见或者行级更新,更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景,MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储、计算解决方案,本文为您介绍本方案可解决的业务痛点和主要架构功能。

Transaction Table2.0概述

2023-06-16

新增NOW

新说明

返回当前系统日期与时间。

NOW

2023-06-16

新增MaxCompute+DLF+OSS实践

新说明

由于DLF中数据入湖功能已经停止更新,本文采用DataWorks数据集成的入湖方式,以MySQL数据入湖为例,为您介绍在MaxCompute中如何创建外部项目,并查询DLF中的表数据。

基于DLF数据入湖的MaxCompute湖仓一体实践

2023-06-16

新增MaxCompute+Hadoop搭建实践

新说明

本文以E-MapReduce的Hive为例,为您介绍在MaxCompute中如何创建外部项目,并查询Hadoop中的表数据。

MaxCompute+Hadoop搭建实践

2023-06-16

新增对于外部项目的用户以及权限操作

新说明

当External Project创建完毕之后,其中的表的所有者归属于创建External Project的账号。如果您需要授权其他用户外部表项目操作权限,请根据本文进行操作。

对于外部项目的用户以及权限操作

2023-06-16

新增基于Hadoop集群支持Delta Lake或Hudi存储机制

新说明

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。本文为您介绍如何构建基于Delta Lake或Hudi存储机制的湖仓一体方案。

基于Hadoop集群支持Delta Lake或Hudi存储机制

2023-06-16

新增搭建与管理

新说明

本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体。

搭建与管理(基于Hadoop)

2023-06-16

新增搭建与管理

新说明

本文为您介绍如何通过MaxCompute与DLF和OSS构建湖仓一体。

搭建与管理(基于DLF和OSS)

2023-06-07

新增计算资源优化推荐

新说明

MaxCompute计算资源优化推荐功能基于您包年包月一级Quota作业资源请求量及对资源配置的期望,推荐并生成更优的计算资源配置方案,帮助您进一步优化计算成本。本文为您介绍如何通过MaxCompute控制台获取计算资源优化配置方案。

计算成本优化

2023-06-07

新增数据重排

新说明

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。本文以MaxCompute公共数据集中表为例为您介绍如何通过数据重排方式进行存储优化。

数据重排

2023年5月更新记录

时间

特性

类别

描述

产品文档

2023-05-31

新增COMBINATIONS

新说明

返回输入数组元素的N元组合组成的数组。

COMBINATIONS

2023-05-31

新增NGRAMS

新说明

返回指定数组元素的N元语法(n-gram)数组。

NGRAMS

2023-05-31

新增ARRAY_NORMALIZE

新说明

返回根据指定p范数(p Norm)对数组元素规范化后的数组。

ARRAY_NORMALIZE

2023-05-31

新增SEQUENCE

新说明

根据表达式生成包含指定元素的数组。

SEQUENCE

2023-05-31

新增FLATTEN

新说明

将数组类型的数组转换为单个数组。

FLATTEN

2023-05-31

新增SHUFFLE

新说明

返回指定数组的元素随机排列数组。

SHUFFLE

2023-05-31

新增MULTIMAP_ FROM_ENTRIES

新说明

返回由结构体数组中的Key和包含所有Value的数组所组成的Map。

MULTIMAP_FROM_ENTRIES

2023-05-24

新增Quota调度策略说明

新说明

本文为您介绍MaxCompute的包年包月二级Quota调度策略模式,并提供设置和查看二级Quota调度策略的操作指导。

Quota调度策略说明

2023-05-19

新增Purge

新说明

清除当前表或者整个项目下所有表的备份数据,清除后不可以恢复。

Purge

2023-05-10

新增聚类分片

新说明

Proxima CE支持使用聚类分片方式检索任务,本文为您介绍聚类分片检索功能的使用方法及示例。

聚类分片

2023-05-10

新增多类目检索

新说明

Proxima CE支持多类目检索方式检索任务,本文为您介绍多类目检索功能的使用方法及示例。

多类目检索

2023-05-10

新增基础向量检索

新说明

Proxima CE支持使用基础向量检索和百万TopK检索的方式检索任务,本文为您介绍Proxima CE中使用基础向量检索离线任务的方法及示例。

基础向量检索

2023-05-06

新增错误码问题ODPS-0110042

新说明

为您介绍错误码ODPS-0110042的产生原因及解决方案。

ODPS-0110042

2023年4月更新记录

时间

特性

类别

描述

产品文档

2023-04-19

新增PyODPS使用第三方包

新说明

本文为您介绍如何在PyODPS中使用第三方包。

PyODPS使用第三方包

2023-04-19

新增PyODPS制作第三方包

新说明

PyODPS自V0.11.3版本开始提供了pyodps-pack命令行工具,用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包,使用方法类似pip命令。您可以使用该工具将所有依赖项目制作成一个后缀为.tar.gz的压缩包,其中包含所有依照MaxCompute或DataWorks环境编译并打包的项目依赖。您也可以使用该工具打包您项目中自行创建的Python包。

PyODPS制作第三方包

2023-04-17

新增ListProjectUsers - 获取项目用户列表

新说明

获取项目用户列表。

ListProjectUsers - 获取项目用户列表

2023-04-11

新增使用SQL分析连接

新说明

MaxCompute控制台提供SQL分析,方便您快速执行SQL语句操作。本文为您介绍如何通过SQL分析使用MaxCompute服务。

使用SQL分析连接

2023-04-11

新增新用户免费试用额度

新说明

您在注册阿里云账号并进行实名认证后,如果未购买任何MaxCompute产品,可免费试用MaxCompute。试用期内您可以免费试用一定额度的计算消耗量,同时免费存储一定额度的标准存储数据。本文为您介绍免费试用额度类型、支持地域等内容。

新用户免费试用额度

2023-04-10

新增物化视图

新说明

随着MaxCompute的深入使用,会出现对MaxCompute的表有很多重复查询的情况,并且不同使用者之间互相不知道其他人也在使用同样的计算逻辑。为了提高用户的计算效率、减少重复计算,同时加速用户计算。MaxCompute提供物化视图智能计算加速,为您智能分析推荐创建物化视图。本文为您介绍如何通过智能分析创建物化视图。

物化视图

2023-04-07

新增基于GitHub公开事件数据集的离线实时一体化实践

新说明

本文为您介绍如何基于GitHub实时事件数据通过MaxCompute构建离线数仓、通过Flink和Hologres构建实时数仓,然后通过Hologres和MaxCompute分别进行实时与离线数据分析,从而实现实时离线一体化解决方案。

基于GitHub公开事件数据集的离线实时一体化实践

2023年3月更新记录

时间

特性

类别

描述

产品文档

2023-03-31

新增作业运维(新版)

新说明

MaxCompute提供作业运维管理功能,数据开发人员和管理员可通过MaxCompute控制台的作业运维功能查看历史作业和正在运行的作业,方便了解作业运行详情。本文为您介绍如何通过MaxCompute控制台运维和管理作业。

作业运维(新版)

2023-03-31

新增External Volume SDK说明

新说明

本文为您介绍使用Java SDK操作External Volume的说明。

External Volume SDK说明

2023-03-31

新增利用MaxCompute External Volume处理非结构化数据

新说明

External Volume是MaxCompute提供的分布式文件系统和数据存储方案,为OSS路径在MaxCompute中的映射对象。MaxCompute通过创建External Volume去挂载OSS的一个路径,利用MaxCompute权限管理系统对用户访问External Volume做细粒度的权限控制,同时利用 MaxCompute引擎处理External Volume内部的文件数据。每个Project中可以有多个External Volume。本文为您介绍如何利用MaxCompute External Volume处理非结构化数据。

利用MaxCompute External Volume处理非结构化数据

2023-03-30

新增向量计算(Proxima CE)

新说明

Proxima CE 是基于Proxima2.x内核提供的超大规模离线向量检索引擎,用于支持批量离线向量检索任务,包括基础的向量检索、多类目检索及百万TopK检索等功能。本文为您介绍在MaxCompute中如何使用向量计算功能。

向量计算(Proxima CE)概述

2023-03-30

新增External Volume操作

新说明

External Volume是MaxCompute提供的分布式文件系统和非结构化数据存储方案,通过External Volume可以实现使用MaxCompute引擎处理OSS上的文件数据。本文为您介绍常用的External Volume操作。

External Volume操作

2023-03-24

新增内建函数

新说明

MaxCompute自身预置了诸多函数,可以满足大部分业务场景的数据处理需求。本文为您介绍MaxCompute提供的函数类型及函数使用相关说明。

新增函数包括:CURRENT_TIMEZONE、DAYOFYEAR、DAYOFWEEK、INITCAP、NEGATIVE、POSITIVE、ATAN2、ISNAN。

内建函数概述

2023-03-20

新增独享数据传输服务资源组

新说明

MaxCompute为您提供独享数据传输服务资源组,本文为您介绍如何购买、使用独享数据传输服务资源组。

2023-03-17

新增PyODPS Schema

新说明

Schema是MaxCompute介于项目和表、资源、函数之间的概念,对表、资源、函数进行进一步归类。本文为您介绍Schema的基本操作。

Schema

2023-03-14

新增TPC-DS数据

新说明

MaxCompute通过TPC-DS官方工具生成了1GB、10GB、100GB、1TB、10TB、100TB六个规格的TPC-DS数据,此数据方便您在做产品测试时使用。本文为您介绍MaxCompute公开数据集中TPC-DS数据的基本信息,以及如何通过MaxCompute执行TPC-DS数据查询。

TPC-DS数据

2023-03-13

新增加密函数

新说明

MaxCompute SQL提供了加密函数和解密函数,您可以根据实际需要选择合适的函数,对指定列进行随机性加密或解密。本文为您提供MaxCompute SQL支持的加密函数的命令格式、参数说明及示例,指导您使用加密函数完成开发。

2023-03-10

新增PIVOT、UNPIVOT

新说明

MaxCompute支持PIVOT和UNPIVOT关键字,通过PIVOT关键字可以基于聚合将一个或者多个指定值的行转换为列;通过UNPIVOT关键字可以将一个或者多个列转换为行。本文为您介绍PIVOT和UNPIVOT关键字的使用和示例。

PIVOT、UNPIVOT

2023-03-09

新增QUALIFY

新说明

MaxCompute支持使用QUALIFY语法根据您指定的过滤条件过滤窗(Window)函数的结果,QUALIFY语法过滤Window函数数据类似于HAVING语法处理经过聚合函数和GROUP BY后的数据。本文为您介绍QUALIFY语法和使用示例。

QUALIFY

2023-03-08

新增TABLESAMPLE采样

新说明

MaxCompute支持通过TABLESAMPLE功能来对表数据进行采样,包含三种采样方式:分桶采样、指定采样百分比采样和随机返回指定记录数采样。本文为您介绍使用TABLESAMPLE采样的命令语法和使用示例。

TABLESAMPLE采样

2023-03-06

新增使用Tunnel命令或Tunnel SDK

新说明

MaxCompute的客户端(odpscmd)、Studio等数据上传下载工具均通过Tunnel功能实现数据的上传与下载,本文为您介绍如何使用Tunnel命令或Tunnel SDK上传数据至MaxCompute。

使用Tunnel命令或Tunnel SDK

2023年2月更新记录

时间

特性

类别

描述

产品文档

2023-02-28

新增周期性调度作业概述

新说明

如果您希望周期性运行MaxCompute作业,可使用DataWorks的DataStudio开发周期性MaxCompute作业,并配置周期性调度的时间属性、调度依赖等配置项,将作业整体提交至DataWorks的运维中心进行周期性调度。本文为您概要介绍当前使用DataWorks开发周期性作业的能力。

周期性调度作业概述

2023-02-28

新增GetProject - 获取项目信息

新说明

查询MaxCompute项目的基本信息。

GetProject - 获取项目信息

2023-02-28

新增在DataWorks运维中心查看作业运行信息

新说明

DataWorks运维中心展示离线同步、实时同步作业的运行状态分布、数据同步进度等数据集成信息,帮助您提升任务运维效率。当您在DataStudio中完成节点开发,并提交和发布至生产环境后,即可在运维中心查看作业运行详情、监控作业运行状态等操作。本文为您介绍如何通过DataWorks运维中心查看MaxCompute作业的运行信息。

在DataWorks运维中心查看作业运行信息

2023-02-28

新增MaxCompute作业概述

新说明

本文为您介绍MaxCompute作业的基本概念和常用场景。

MaxCompute作业概述

2023-02-28

新增数据传输作业:数据集成

新说明

MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute,数据集成作业主要有三种类型:离线同步、实时同步、同步解决方案。本文为您介绍MaxCompute数据集成的实现方案。

数据传输作业:数据集成

2023-02-28

新增作业优先级管理与成本优化

新说明

本文为您介绍MaxCompute作业优先级管理与成本优化。

作业优先级管理与成本优化

2023-02-28

新增数据传输与迁移概述

新说明

MaxCompute提供多种渠道,以便您从业务系统或外部数据源写入数据到MaxCompute,或者从MaxCompute写出数据到外部系统或外部数据源。

数据传输与迁移概述

2023-02-23

新增数据分析作业

新说明

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用查询编辑器或DataWorks的临时查询等工具,高效便捷地完成数据分析作业。本文为您介绍数据分析场景下的常用工具与使用注意事项。

数据分析作业

2023-02-22

新增高级应用:实现复杂作业逻辑

新说明

使用DataWorks周期性调度MaxCompute作业时,您也可以灵活使用DataWorks已有的通用节点,例如虚拟节点、分支和归并节点、循环类节点等,与MaxCompute的其他节点联合使用可实现更复杂的业务效果,本文为您概要介绍常用的通用节点和典型应用场景。

高级应用:实现复杂作业逻辑

2023-02-13

新增函数概述

新说明

为了供您方便快捷的使用MaxCompute SQL进行数据分析和数据加工,MaxCompute提供了丰富的内建函数,以便您在日常开发和分析中使用,您可以根据需要从不同维度快速查询目标函数。

概述

2023-02-07

新增使用标签分账

新说明

MaxCompute支持为项目(Project)、一级Quota绑定标签,绑定标签后,您可以通过阿里云用户中心使用分账账单或成本分析功能查看费用情况。本文为您介绍在MaxCompute中使用标签进行分账。

使用标签分账

2023-02-07

新增最佳实践Range Clustering

新说明

Range Clustering作为一种新的数据切分方式,提供了一个全局有序的数据分布,一是可以避免Hash Clustering可能造成的数据倾斜问题;二是在数据有序分布的前提下,创建两级索引(Index),支持对Clustering Key的区域查询以及多键的组合查询等场景。本文为您介绍如何在MaxCompute中使用Range Clustering。

Range Clustering

2023-02-02

新增最佳实践Hash Clustering

新说明

哈希聚簇(Hash Clustering)表通过设置表的Shuffle和Sort属性,进而MaxCompute根据数据已有的存储特性,优化执行计划,提高效率,节省资源消耗。本文为您介绍在MaxCompute中如何使用Hash Clustering表。

Hash Clustering

2023年1月更新记录

时间

特性

类别

描述

产品文档

2023-01-31

新增搭建Windows开发环境。

新说明

本文为您介绍如何在Windows操作系统下搭建MaxCompute Spark开发环境。

如果您安装了Linux操作系统,请前往搭建Linux开发环境

搭建Windows开发环境

2023-01-31

新增获取任务执行进度示例。

新说明

本文为您介绍如何使用Java SDK获取任务(Task)的执行进度。

获取任务执行进度示例

2023-01-17

新增OSS外部表根据字段名称Mapping数据。

新说明

OSS支持用户在OSS目录下上传不同表结构的数据,MaxCompute建立的OSS外部表可以根据字段名称对数据进行读写。本文为您介绍在MaxCompute中使用OSS外部表根据字段名称对数据进行读写。

OSS外部表根据字段名称Mapping数据

2023-01-09

新增迁移任务查看与操作。

新说明

本文为您介绍迁移任务查看与操作的功能。您可以在迁移任务子任务列表中查看子迁移任务的相关信息,在子迁移任务的详情⾥查看任务执⾏的日志。

迁移任务查看与操作

2023-01-09

新增分区过滤表达式说明。

新说明

本文为您提供分区过滤表达式的相关说明,用于数据迁移时的参数配置场景。

分区过滤表达式说明

2023-01-09

新增MaxCompute数据迁移。

新说明

本文为您介绍MaxCompute数据迁移的准备事项和操作步骤。

MaxCompute数据迁移

2023-01-09

新增Hive数据迁移。

新说明

本文为您介绍通过Hive UDTF迁移Hive数据的方法。

Hive数据迁移

  • 本页导读 (1)