本文为您提供MaxCompute产品在2021年的重要功能发布信息。

MaxCompute的重要功能发布详情请参见产品重大更新

2021-09

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute 产品在华南1金融云(深圳)正式开服 MaxCompute支持的地域增加华南1金融云(深圳)。 2021-09-14 华南1金融云(深圳)
MaxCompute 支持访问开启Kerberos 认证授权机制的 Hadoop集群 大部分企业的Hadoop的生产集群开启了 Kerberos认证授权机制,本次功能升级能够利用MaxCompute访问开启Kerberos认证授权机制的 Hadoop集群,极大的扩展了湖仓一体对接Hadoop的适用范围。 2021-09-01
  • 华东1(杭州)
  • 华东2(上海)
  • 华北2(北京)
  • 华南1(深圳)
  • 华北3(张家口)
  • 新加坡
MaxCompute 支持通过湖仓一体方式读取OSS上的Hudi或 Delta Lake格式存储 Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、OSS产品提供了支持Delta或Hudi 存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。 2021-09-01
  • 华东1(杭州)
  • 华东2(上海)
  • 华北2(北京)
  • 华南1(深圳)
  • 新加坡
基于Delta Lake或Hudi存储机制实现湖仓一体

2021-08

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute SQL新增编码转换等16个内置函数 MaxCompute SQL 新增内置函数包括:
  • 复杂类型函数

    FIELD:获取STRUCT中的成员变量的取值。

  • 日期函数

    TO_MILLIS:将指定日期转换为以毫秒为单位的UNIX时间戳。

  • 字符串函数
    • ENCODE:将字符串按照指定编码格式编码。
    • FIND_IN_SET:在以逗号分隔的字符串中查找指定字符串的位置。
    • LOCATE:在字符串中查找另一指定字符串的位置。
    • PARSE_URL_TUPLE:对URL进行解析返回多个部分的信息。
  • 数学函数

    CORR:计算两列数据的皮尔逊系数。

  • 其他函数
    • HASH:对输入的参数进行散列运算,返回一个HASH值。
    • COMPRESS:对输入的字符串,按照GZIP算法进行压缩。
    • DECOMPRESS:对于BINARY类型的输入,使用GZIP算法进行解压缩。
    • NULLIF:如果expr1和expr2的值相等,返回NULL;否则返回expr1。
    • FORMAT_NUMBER:将数字转化为指定格式的字符串。
    • SHA:计算字符串或者二进制的SHA-1哈希值,并将值以十六进制字符串返回。
    • SHA1:计算字符串或者二进制的SHA-1哈希值,并将值以十六进制字符串返回。
    • SHA2:计算字符串或者二进制的SHA-2系列哈希值(支持SHA-224,SHA-256,SHA-384和SHA-512)。
    • CRC32:计算字符串或者二进制的循环冗余校验值。
2021-08-31 全部地域
MaxCompute SQL UPDATE、DELETE和MERGE INTO功能商业化 自2021年8月10日起,MaxCompute SQL的UPDATE、DELETE和MERGE INTO功能结束免费公测,开始正式计费。已经使用UPDATE、DELETE和MERGE INTO功能的按量计费作业,届时会产生计算费用。如果您之前因为担心公测稳定性问题而暂未使用UPDATE、DELETE和MERGE INTO功能,届时可以放心使用。MaxCompute为UPDATE、DELETE和MERGE INTO功能的相关可用性、稳定性等提供与MaxCompute SQL能力同等的保障。 2021-08-10
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
  • 华南1(深圳)
  • 西南1(成都)
MaxCompute流式数据通道服务功能商业化发布 MaxCompute流式数据通道服务提供流式语义API支持,简化分布式服务开发操作。支持分布式服务并发创建分区,支持数据异步zorder by排序功能。 2021-08-09 全部地域 流式数据通道服务
MaxCompute SQL支持物化视图 MaxCompute SQL推出物化视图(Materialized View)功能。物化视图本质是一种预计算,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存下来,以便在查询时直接复用,从而避免这些耗时的操作,最终达到加速查询的目的。
物化视图适用于如下场景:
  • 模式固定、且执行频次高的查询。
  • 查询包含非常耗时的操作,比如聚合、连接操作等。
创建了物化视图后,执行查询操作时,MaxCompute SQL查询改写能力会自动匹配到最优物化视图,并直接从物化视图中读取数据,从而大大提高查询效率,您不需要修改已有查询。
2021-08-06 全部地域 物化视图操作

2021-07

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute SQL支持对部分聚合函数输入预排序 MaxCompute SQL的聚合函数WM_CONCATCOLLECT_LIST及对数据输入顺序敏感的UDAF函数,如果指定了排序列WITHIN GROUP (ORDER BY col1[, col2...]),那么聚合函数的输入会保证有序。 2021-07-30 全部地域 聚合函数
MaxCompute SQL子查询支持多列运算的语法 MaxCompute SQL兼容PostgreSQL子查询语法,提供in subquery/scalar subquery支持多列运算的语法。其中:
  • in subquery
    • in后的表达式可以为简单的SELECT多列语句。
    • in后的表达式中可以使用聚合函数。
    • in后的表达式可以为常量。
  • scalar subquery
    • SELECT列为包含多列的SCALAR SUBQUERY表达式,只支持等值表达式。
    • SELECT列可以为BOOLEAN表达式,只支持等值比较。
    • where支持多列比较,只支持等值比较。
2021-07-29 全部地域 子查询(SUBQUERY)
MaxCompute项目删除新功能发布 您可以通过阿里云账号(主账号)或具备项目Super_Administrator角色的RAM用户账号登录MaxCompute控制台删除MaxCompute项目。支持如下两种删除方式:
  • 逻辑删除,15日内可恢复:删除后项目不可用,15天内您可以在项目管理页签的目标MaxCompute项目的操作列单击恢复,恢复项目。超过15天会彻底删除项目且永久无法恢复。
  • 立即删除,永久不可恢复:彻底删除,永久不可恢复。此方式删除后您可以立即创建同名项目。
2021-07-29
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
  • 华南1(深圳)
  • 西南1(成都)
删除MaxCompute项目
MaxCompute管家发布新的SQL性能优化推荐 MaxCompute管家定期推荐需要进行性能或成本优化的作业列表,本次主要是针对“适合启用Dynamic Filter进行性能优化的包含JOIN的SQL周期作业”。推荐的结果列表将给出最近一次执行的Instance ID(单击Instance ID可查看Logview),以及JOIN的输入输出数目,同时预测通过Dynamic Filter优化后SQL的加速效率和HINT方式辅助信息,很方便的获取到需要优化的作业信息,通过信息判断是否需要对作业进行优化。 2021-07-16
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
  • 华南1(深圳)
  • 西南1(成都)
MaxCompute管家

2021-04

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute支持Dynamic Filter智能优化功能 JOIN是分布式系统中常见的操作,在海量数据场景下,也是一个非常耗时、耗资源的操作。针对JOIN场景,MaxCompute推出Dynamic Filter智能优化功能,可以利用JOIN本身的等值连接属性,基于运行时动态生成过滤器,在Shuffle或JOIN之前提前过滤数据,实现加速查询运行。该功能适用于维度表和事实表执行JOIN的场景。您可以在Session级别通过开关强制打开、智能选择打开或手工提示使用动态过滤器,并使用动态分区裁剪方法先过滤分区再使用动态过滤器。 2021-04-07
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
  • 华南1(深圳)
  • 西南1(成都)
动态过滤器(Dynamic Filter)

2021-03

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute Project全量作业或Project全量SQL作业超时监控告警功能发布 MaxCompute支持通过云监控配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。 2021-03-16
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
  • 华南1(深圳)
  • 西南1(成都)
作业超时监控告警
MaxCompute 外部表支持SNAPPY、LZO压缩格式 如果您的数据格式为TEXTFILE,例如JSON,存放在OSS,希望通过外部表读写且支持压缩,MaxCompute提供了开源数据格式外部表对SNAPPY、LZO压缩文件的读写能力。 2021-03-16 全部地域 支持压缩格式数据
MaxCompute SQL支持FROM_JSON/TO_JSON函数 FROM_JSON函数可以将JSON转换成MaxCompute的数据类型,或提取JSON中的信息,根据JSON字符串jsonStr和schema信息,返回ARRAY、MAP或STRUCT类型。TO_JSON函数可以将给定的复杂类型ARRAY、MAP或STRUCT,以JSON字符串格式输出。 2021-03-16 全部地域 字符串函数
MaxCompute SQL支持UPDATE/DELETE/MERGE INTO语法(公测) UPDATE/DELETE是MaxCompute新支持的在行级别操作表或者分区数据的语句。相比之前订正表或者分区中的少量数据,也需要读取全量数据,关联生成新数据之后再INSERT OVERWRITE全量写回的方法,UPDATE/DELETE操作读写数据量都显著下降。

当您对目标表的一次操作包括INSERT、UPDATE、DELETE逻辑时,MERGE INTO功能可以用一条SQL语句进行一次扫描完成全部操作,执行效率更高。同时,MERGE INTO任务具备原子性,任一内部逻辑处理失败,则整体作业执行失败,避免同一批操作部分逻辑无法回退或重做的问题。您需要创建Transactional表才能使用UPDATE/DELETE/MERGE INTO功能。并且因为大数据系统保证任务级别的ACID,当作业并发运行且操作的目标表相同时,可能会出现作业冲突。需要注意的是目前UPDATE/DELETE/MERGE INTO处于公测阶段,不收取计算费用,但公测期间也暂时不对您使用此功能用于生产的作业和数据提供保证,重要数据请做好备份。

2021-03-16 全部地域
MaxCompute管家作业诊断功能发布 MaxCompute管家发布的慢作业、错作业诊断功能,可以帮助大数据开发者和分析师在日常作业运维中,对慢作业和错作业进行自助诊断分析,通过诊断分析结果给出的建议,对作业进行优化,从而提示作业的运行效率。诊断功能主要支持7天以内的SQL、MapReduce类型的作业诊断,基于作业运行时产生的各个阶段状态信息,与作业历史运行数据进行对比分析,得出作业相比历史在某些环节或诊断维度上的缺陷和问题,并针对问题给出相应的原因和解决方案。诊断信息展示主要分为4大块内容,分别是作业基础信息、作业历史运行Instance列表、控制集群历史耗时分析、计算集群历史耗时分析,方便用户对诊断结果进行阅览,并快速获取到诊断建议。 2021-03-12 全部地域 MaxCompute管家
MaxCompute管家SQL周期作业持续空输出或持续全表扫描推荐功能发布 MaxCompute管家将定期推荐需要进行性能或成本优化的作业列表,本次主要是针对“SQL周期作业持续空输出或持续全表扫描”。推荐的结果列表将给出最近一次执行的InstanceID(单击可进入Logview)以及最近一个月持续运行的次数,可以很方便的获取到需要优化的作业信息,通过信息辅助判断是否需要对作业进行优化,如持续空输出是否是无效作业无需运行避免资源浪费;如持续全表扫描是否是因为脚本遗漏了分区条件需要加上以便减少输入量减少资源消耗。 2021-03-12 全部地域 MaxCompute管家

2021-02

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute 湖仓一体功能商业化发布 MaxCompute湖仓一体方案通过数据仓库 MaxCompute、数据湖(对象存储OSS或Hadoop HDFS)共同实现。本次发布两种构建湖仓一体的方式:
  • 与阿里云OSS+DLF构建湖仓一体能力:通过MaxCompute和OSS实现。该方式需要配套使用阿里云产品数据湖构建DLF(Data Lake Formation)。数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对湖数据的元数据管理能力,提升对OSS半结构化格式(AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。
  • 与Hadoop HDFS构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等)实现。您需要填写MaxCompute湖仓一体方案使用申请表,提交申请后,MaxCompute团队技术人员会联系并协助您完成后续操作。
2021-02-26
  • 华北2(北京)
  • 华东2(上海)
  • 华东1(杭州)
MaxCompute湖仓一体
MaxCompute支持云HBase外部表(公测) MaxCompute支持通过专有网络连接方案,访问用户的云HBase。用户完成网络连通和授权,可以创建HBase外部表,通过Hive提供的HBaseStorageHandler读写HBase中的表的数据。使用HBase外部表,可以同步HBase中的数据到MaxCompute进行后续ETL处理,也可以关联HBase外部表进行联邦计算,或将MaxCompute数据输出到HBase表。目前读写HBase外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
HBase外部表
MaxCompute命令行支持关闭表头显示,便于Shell调用 在Shell(或Windows命令行)执行窗口,用户会可能需要使用odpscmd -e SQL语句执行得到的动态返回值,Shell的变量会获取这个动态返回值,然后在Shell中执行后续作业。此场景需要返回值不包含运行信息、表头等额外信息。您可以通过set odps.sql.select.output.format={needHeader:false,fieldDelim:""};关掉表头显示,将计算结果stdout部分输出到目标句柄。 2021-02-08 全部地域 MaxCompute客户端(odpscmd)
MaxCompute外部表OSS写入场景能力增强 MaxCompute支持使用OSS的分片上传(Multipart Upload)功能,在INSERT操作向OSS外部表写入数据时,提高写数据效率。此外MaxCompute写入到OSS外部表的数据,会存储在LOCATION目录下的.odps文件夹中,并维护了一个.meta文件,用于保证MaxCompute数据的一致性。.odps文件夹中的内容只有MaxCompute能正确处理,其他引擎读取可能报错。MaxCompute新增 odps.sql.unstructured.oss.commit.mode属性,设置为true时(默认为false),MaxCompute使用分片上传功能,且以two-phase commit的方式保证数据的一致性,同时也不会有.odps目录以及.meta文件,以便兼容其他数据处理引擎读取。 2021-02-08 全部地域 将数据输出到OSS
MaxCompute外部表Hive兼容模式支持用户自定义Serde类 MaxCompute提供了兼容Hive Serde接口处理开源格式数据的能力,并对各种常见的数据格式都有内建的默认的Serde Class进行处理。如果用户有数据格式要指定自定义的ROW FORMAT SERDE,在建外部表的时候需要指定依赖的资源,添加JAR包,并在建表时定义using jar的方式,使用自定义的Serde类实现外部表对特殊数据格式的兼容。 2021-02-08 全部地域 支持开源格式数据
MaxCompute内建函数新增或增强 变更点如下:
  • 增强日期函数datedatediffdatepartdatetrunc对DATE、TIMESTAMP日期数据类型的支持。
  • 新增字符串函数parse_url对URL进行解析;新增base64unbase64函数实现二进制和BASE64格式字符串互转。
  • 聚合函数增加过滤条件表达式支持,可以对select子句中某个聚合函数指定过滤条件,便于您在同一个聚合语句中单独控制某个聚合函数的数据范围。新增count_if函数对满足if条件的记录进行计数。
  • 其他函数新增stack,将指定数据分隔为n行,兼容Hive和Spark SQL函数用法。新增get_user_id获取当前账号的账号ID。新增array_intersect,用于计算两个array的交集。sort_array增加isAsc参数,对给定数组排序时让用户选择是升序还是降序,默认是升序。
2021-02-08 全部地域
MaxCompute推出Freeride及Analyze两种优化器元数据收集工具 MaxCompute目前提供两种方式收集表的元数据:
  • 异步收集(Analyze):需要您通过命令对表进行主动、异步收集。扫描表数据会产生计费。
  • 同步收集(Freeride):需要您在create table ... as ...insert语句前设置运行参数,配置收集计划启用Freeride功能,在数据生成的同时,自动收集列统计信息。这种方式更加自动化,但对查询时延有影响。
2021-02-08 全部地域 优化器信息收集
MaxCompute支持RDS外部表(公测) MaxCompute支持通过专有网络连接方案,访问用户的RDS。用户完成网络连通和授权,可以创建RDS外部表并读写RDS中的数据。使用RDS外部表,用户可以同步RDS中的数据(例如维度数据、业务数据)到MaxCompute进行后续ETL处理,也可以关联RDS外部表进行联邦计算,或将MaxCompute数据输出到RDS数据库。当前读写RDS外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08 全部地域 RDS外部表
MaxCompute外部表支持通过JDBC方式读写MC-Hologres(公测) MaxCompute外部表支持使用数据库JDBC驱动机制访问MC-Hologres数据源数据。您可以使用在MaxCompute上创建MC-Hologres外部表的方式,基于PostgreSQL JDBC驱动查询MC-Hologres数据源的数据。该方式无冗余存储,无需导入导出数据,可实现快速获取查询结果。当前读写MC-Hologres外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08 全部地域 MC-Hologres外部表
MaxCompute支持通过UNLOAD命令把数据导出到OSS外部存储 MaxCompute支持通过UNLOAD命令导出数据到OSS,方便用户使用OSS存储结构化数据,并方便用户使用OSS上其他计算引擎处理和分析MaxCompute导出的数据。 2021-02-08 全部地域 UNLOAD
MaxCompute SQLML功能商业化发布 MaxCompute SQLML可以让数据工程师、分析师和数据科学家使用SQL语言在MaxCompute中创建、训练和应用机器学习模型,使SQL从业人员利用现有的SQL工具和技能就能应用机器学习的能力,同时无需做数据迁移,实现机器学习的普惠。 2021-02-01 全部地域

2021-01

功能名称 功能描述 发布时间 发布地域 相关文档
MaxCompute全量作业管理 MaxCompute管家推出作业管理功能,为开发人员和管理人员提供对全量作业按照时间段、状态以及更多细粒度条件查找作业并进行相应管理。 2021-01-13 全部地域 MaxCompute作业运维管理
MaxCompute管家支持RAM用户权限管理 MaxCompute管家针对项目、配额、作业等功能入口进行了权限管控,主要对以RAM用户身份登录MaxCompute管家的用户进行权限控制,提升作业管理安全性。RAM用户需要具备相应功能模块的权限才具备操作权限。
MaxCompute管家权限主要分为以下4种角色:
  • 超级管理员:支持查看并操作MaxCompute管家界面的所有对象。
  • 项目管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应项目正在运行的作业。
  • 配额组管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应配额组正在运行的作业。
  • 访客:默认所有RAM用户可以访问MaxCompute管家,无需额外授权,可以查看MaxCompute管家界面的所有对象,只能终止自己提交的正在运行的作业。
2021-01-13 全部地域 MaxCompute管家权限
MaxCompute存储服务单价调整 自2021年1月10日起,MaxCompute数据存储服务由阶梯定价调整为固定定价,新定价将降低中小数据规模客户的MaxCompute存储成本:MaxCompute存储由梯度定价(小于等于10 TB单价:0.0072元/GB/天、大于10 TB小于等于100 TB单价:0.006元/GB/天、大于100 TB单价:0.004元/GB/天)调整为统一定价:0.12元/GB/月(即0.004元/GB/天) 2021-01-10 全部地域 存储费用(按量计费)