本文为您提供MaxCompute产品在2021年的重要功能发布信息。

MaxCompute的重要功能发布详情请参见产品重大更新

2021-03

功能名称 功能描述 发布时间 发布区域 相关文档
MaxCompute Project全量作业或Project全量SQL作业超时监控告警功能发布 MaxCompute支持通过云监控配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。 2021-03-16 全部区域 作业超时监控告警
MaxCompute 外部表支持SNAPPY、LZO压缩格式 如果您的数据格式为TEXTFILE,例如JSON,存放在OSS,希望通过外部表读写且支持压缩,MaxCompute提供了开源数据格式外部表对SNAPPY、LZO压缩文件的读写能力。 2021-03-16 全部区域 支持压缩格式数据
MaxCompute SQL支持FROM_JSON/TO_JSON函数 FROM_JSON函数可以将JSON转换成MaxCompute的数据类型,或提取JSON中的信息,根据JSON字符串jsonStr和schema信息,返回ARRAY、MAP或STRUCT类型。TO_JSON函数可以将给定的复杂类型ARRAY、MAP或STRUCT,以JSON字符串格式输出。 2021-03-16 全部区域 字符串函数
MaxCompute SQL支持UPDATE/DELETE/MERGE INTO语法(公测) UPDATE/DELETE是MaxCompute新支持的在行级别操作表或者分区数据的语句。相比之前订正表或者分区中的少量数据,也需要读取全量数据,关联生成新数据之后再INSERT OVERWRITE全量写回的方法,UPDATE/DELETE操作读写数据量都显著下降。

当您对目标表的一次操作包括INSERT、UPDATE、DELETE逻辑时,MERGE INTO功能可以用一条SQL语句进行一次扫描完成全部操作,执行效率更高。同时,MERGE INTO任务具备原子性,任一内部逻辑处理失败,则整体作业执行失败,避免同一批操作部分逻辑无法回退或重做的问题。您需要创建Transactional表才能使用UPDATE/DELETE/MERGE INTO功能。并且因为大数据系统保证任务级别的ACID,当作业并发运行且操作的目标表相同时,可能会出现作业冲突。需要注意的是目前UPDATE/DELETE/MERGE INTO处于公测阶段,不收取计算费用,但公测期间也暂时不对您使用此功能用于生产的作业和数据提供保证,重要数据请做好备份。

2021-03-16 全部区域
MaxCompute管家作业诊断功能发布 MaxCompute管家发布的慢作业、错作业诊断功能,可以帮助大数据开发者和分析师在日常作业运维中,对慢作业和错作业进行自助诊断分析,通过诊断分析结果给出的建议,对作业进行优化,从而提示作业的运行效率。诊断功能主要支持7天以内的SQL、MapReduce类型的作业诊断,基于作业运行时产生的各个阶段状态信息,与作业历史运行数据进行对比分析,得出作业相比历史在某些环节或诊断维度上的缺陷和问题,并针对问题给出相应的原因和解决方案。诊断信息展示主要分为4大块内容,分别是作业基础信息、作业历史运行Instance列表、控制集群历史耗时分析、计算集群历史耗时分析,方便用户对诊断结果进行阅览,并快速获取到诊断建议。 2021-03-12 全部区域 MaxCompute管家
MaxCompute管家SQL周期作业持续空输出或持续全表扫描推荐功能发布 MaxCompute管家将定期推荐需要进行性能或成本优化的作业列表,本次主要是针对“SQL周期作业持续空输出或持续全表扫描”。推荐的结果列表将给出最近一次执行的InstanceID(单击可进入Logview)以及最近一个月持续运行的次数,可以很方便的获取到需要优化的作业信息,通过信息辅助判断是否需要对作业进行优化,如持续空输出是否是无效作业无需运行避免资源浪费;如持续全表扫描是否是因为脚本遗漏了分区条件需要加上以便减少输入量减少资源消耗。 2021-03-12 全部区域 MaxCompute管家

2021-02

功能名称 功能描述 发布时间 发布区域 相关文档
MaxCompute 湖仓一体功能商业化发布 MaxCompute湖仓一体方案通过数据仓库 MaxCompute、数据湖(对象存储OSS或Hadoop HDFS)共同实现。本次发布两种构建湖仓一体的方式:
  • 与阿里云OSS+DLF构建湖仓一体能力:通过MaxCompute和OSS实现。该方式需要配套使用阿里云产品数据湖构建DLF(Data Lake Formation)。数据湖的元数据(Schema)全部位于DLF中。MaxCompute可以利用DLF对湖数据的元数据管理能力,提升对OSS半结构化格式(AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。
  • 与Hadoop HDFS构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等)实现。您需要填写MaxCompute湖仓一体方案使用申请表,提交申请后,MaxCompute团队技术人员会联系并协助您完成后续操作。
2021-02-26
  • 华北2(北京)
  • 华东2(上海)
  • 华东1(杭州)
MaxCompute湖仓一体
MaxCompute支持云HBase外部表(公测) MaxCompute支持通过专有网络连接方案,访问用户的云HBase。用户完成网络连通和授权,可以创建HBase外部表,通过Hive提供的HBaseStorageHandler读写HBase中的表的数据。使用HBase外部表,可以同步HBase中的数据到MaxCompute进行后续ETL处理,也可以关联HBase外部表进行联邦计算,或将MaxCompute数据输出到HBase表。目前读写HBase外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08
  • 华北2(北京)
  • 华东2(上海)
  • 华北3(张家口)
  • 华东1(杭州)
HBase外部表
MaxCompute命令行支持关闭表头显示,便于Shell调用 在Shell(或Windows命令行)执行窗口,用户会可能需要使用odpscmd -e SQL语句执行得到的动态返回值,Shell的变量会获取这个动态返回值,然后在Shell中执行后续作业。此场景需要返回值不包含运行信息、表头等额外信息。您可以通过set odps.sql.select.output.format={needHeader:false,fieldDelim:""};关掉表头显示,将计算结果stdout部分输出到目标句柄。 2021-02-08 全部区域 客户端
MaxCompute外部表OSS写入场景能力增强 MaxCompute支持使用OSS的分片上传(Multipart Upload)功能,在INSERT操作向OSS外部表写入数据时,提高写数据效率。此外MaxCompute写入到OSS外部表的数据,会存储在LOCATION目录下的.odps文件夹中,并维护了一个.meta文件,用于保证MaxCompute数据的一致性。.odps文件夹中的内容只有MaxCompute能正确处理,其他引擎读取可能报错。MaxCompute新增 odps.sql.unstructured.oss.commit.mode属性,设置为true时(默认为false),MaxCompute使用分片上传功能,且以two-phase commit的方式保证数据的一致性,同时也不会有.odps目录以及.meta文件,以便兼容其他数据处理引擎读取。 2021-02-08 全部区域 将数据输出到OSS
MaxCompute外部表Hive兼容模式支持用户自定义Serde类 MaxCompute提供了兼容Hive Serde接口处理开源格式数据的能力,并对各种常见的数据格式都有内建的默认的Serde Class进行处理。如果用户有数据格式要指定自定义的ROW FORMAT SERDE,在建外部表的时候需要指定依赖的资源,添加JAR包,并在建表时定义using jar的方式,使用自定义的Serde类实现外部表对特殊数据格式的兼容。 2021-02-08 全部区域 支持开源格式数据
MaxCompute内建函数新增或增强 变更点如下:
  • 增强日期函数datedatediffdatepartdatetrunc对DATE、TIMESTAMP日期数据类型的支持。
  • 新增字符串函数parse_url对URL进行解析;新增base64unbase64函数实现二进制和BASE64格式字符串互转。
  • 聚合函数增加过滤条件表达式支持,可以对select子句中某个聚合函数指定过滤条件,便于您在同一个聚合语句中单独控制某个聚合函数的数据范围。新增count_if函数对满足if条件的记录进行计数。
  • 其他函数新增stack,将指定数据分隔为n行,兼容Hive和Spark SQL函数用法。新增get_user_id获取当前账号的账号ID。新增array_intersect,用于计算两个array的交集。sort_array增加isAsc参数,对给定数组排序时让用户选择是升序还是降序,默认是升序。
2021-02-08 全部区域
MaxCompute推出Freeride及Analyze两种优化器元数据收集工具 MaxCompute目前提供两种方式收集表的元数据:
  • 异步收集(Analyze):需要您通过命令对表进行主动、异步收集。扫描表数据会产生计费。
  • 同步收集(Freeride):需要您在create table ... as ...insert语句前设置运行参数,配置收集计划启用Freeride功能,在数据生成的同时,自动收集列统计信息。这种方式更加自动化,但对查询时延有影响。
2021-02-08 全部区域 优化器信息收集
MaxCompute支持RDS外部表(公测) MaxCompute支持通过专有网络连接方案,访问用户的RDS。用户完成网络连通和授权,可以创建RDS外部表并读写RDS中的数据。使用RDS外部表,用户可以同步RDS中的数据(例如维度数据、业务数据)到MaxCompute进行后续ETL处理,也可以关联RDS外部表进行联邦计算,或将MaxCompute数据输出到RDS数据库。当前读写RDS外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08 全部区域 RDS外部表
MaxCompute外部表支持通过JDBC方式读写MC-Hologres(公测) MaxCompute外部表支持使用数据库JDBC驱动机制访问MC-Hologres数据源数据。您可以使用在MaxCompute上创建MC-Hologres外部表的方式,基于PostgreSQL JDBC驱动查询MC-Hologres数据源的数据。该方式无冗余存储,无需导入导出数据,可实现快速获取查询结果。当前读写MC-Hologres外部表处于公测阶段,不收取计算费用,也暂时不保证SLA。 2021-02-08 全部区域 MC-Hologres外部表
MaxCompute支持通过UNLOAD命令把数据导出到OSS外部存储 MaxCompute支持通过UNLOAD命令导出数据到OSS,方便用户使用OSS存储结构化数据,并方便用户使用OSS上其他计算引擎处理和分析MaxCompute导出的数据。 2021-02-08 全部区域 UNLOAD
MaxCompute SQLML功能商业化发布 MaxCompute SQLML可以让数据工程师、分析师和数据科学家使用SQL语言在MaxCompute中创建、训练和应用机器学习模型,使SQL从业人员利用现有的SQL工具和技能就能应用机器学习的能力,同时无需做数据迁移,实现机器学习的普惠。 2021-02-01 全部区域

2021-01

功能名称 功能描述 发布时间 发布区域 相关文档
MaxCompute全量作业管理 MaxCompute管家推出作业管理功能,为开发人员和管理人员提供对全量作业按照时间段、状态以及更多细粒度条件查找作业并进行相应管理。 2021-01-13 全部区域 MaxCompute作业运维管理
MaxCompute管家支持RAM用户权限管理 MaxCompute管家针对项目、配额、作业等功能入口进行了权限管控,主要对以RAM用户身份登录MaxCompute管家的用户进行权限控制,提升作业管理安全性。RAM用户需要具备相应功能模块的权限才具备操作权限。
MaxCompute管家权限主要分为以下4种角色:
  • 超级管理员:支持查看并操作MaxCompute管家界面的所有对象。
  • 项目管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应项目正在运行的作业。
  • 配额组管理员:支持查看MaxCompute管家界面的所有对象,但只能终止对应配额组正在运行的作业。
  • 访客:默认所有RAM用户可以访问MaxCompute管家,无需额外授权,可以查看MaxCompute管家界面的所有对象,只能终止自己提交的正在运行的作业。
2021-01-13 全部区域 MaxCompute管家权限
MaxCompute存储服务单价调整 自2021年1月10日起,MaxCompute数据存储服务由阶梯定价调整为固定定价,新定价将降低中小数据规模客户的MaxCompute存储成本:MaxCompute存储由梯度定价(小于等于10 TB单价:0.0072元/GB/天、大于10 TB小于等于100 TB单价:0.006元/GB/天、大于100 TB单价:0.004元/GB/天)调整为统一定价:0.12元/GB/月(即0.004元/GB/天) 2021-01-10 全部区域 存储费用(按量计费)