全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
MaxCompute

基本概念

更新时间:2017-10-17 13:13:01

Map/Reduce

Map 和 Reduce 分别支持对应的 map/reduce 方法,setup 及 cleanup 方法。setup 方法在 map/reduce 方法之前调用,每个 Worker 调用且仅调用一次。

cleanup 方法在 map/reduce 方法之后调用,每个 Worker 调用且仅调用一次。

相关的使用示例请参见 示例程序

排序

支持将 Map 输出的 key record 中的某几列作为排序(Sort)列,不支持您自定义的比较器(comparator)。您可以在排序列中选择某几列作为 Group 列,不支持您自定义的 Group 比较器。Sort 列一般用来对您的数据进行排序,而 Group 列一般用来进行二次排序。

相关的使用示例请参见 二次排序源代码

哈希

支持设置哈希(partition)列及用户自定义哈希函数(partitioner)。哈希列的使用优先级高于自定义哈希函数。

哈希函数用于将 Map 端的输出数据按照哈希逻辑分配到不同的 Reduce Worker 上。

归并

归并(Combiner)函数将 Shuffle 阶段相邻的 Record 进行归并。您可以根据不同的业务逻辑选择是否使用归并函数。

归并函数是 MapReduce 计算框架的一种优化,通常情况下,Combiner 的逻辑与 Reduce 相同。当 Map 输出数据后,框架会在 Map 端对相同 key 值的数据进行本地的归并操作。

相关的使用示例请参见 WordCount 代码示例

本文导读目录