全部产品
MaxCompute

基本概念

更新时间:2017-06-07 13:26:11   分享:   

Map及Reduce分别支持对应的map/reduce方法,setup及cleanup方法。setup方法在map/reduce方法之前调用,每个Worker调用且仅调用一次。 cleanup方法在map/reduce方法之后调用,每个Worker调用且仅调用一次。

备注:

排序

支持将map输出的key record中的某几列作为排序(Sort)列,不支持用户自定义的比较器(comparator)。用户可以在排序列中选择某几列作为Group列, 不支持用户自定义的Group比较器。Sort列一般用来对用户数据进行排序,而Group列一般用来进行二次排序。

备注:

哈希

支持设置哈希(partition)列及用户自定义哈希函数(partitioner)。哈希列的使用优先级高于自定义哈希函数。 哈希函数用于将map端的输出数据按照哈希逻辑分配到不同的Reduce Worker上。

归并

归并(Combiner)函数将Shuffle阶段相邻的Record进行归并。用户可以根据不同的业务逻辑选择是否使用归并函数。 归并函数是MapReduce计算框架的一种优化,通常情况下Combiner的逻辑与reduce相同。当map输出数据后, 框架会在map端对相同key值的数据进行本地的归并操作。

备注:

本文导读目录
本文导读目录
以上内容是否对您有帮助?