全部产品
阿里云办公

切分与并行

更新时间:2017-09-08 08:18:51

为最大化数据同步的 Job 传输吞吐量,数据集成将对 Job 进行更细粒度的任务切分,并启动多个数据传输单元进行并行数据同步。数据集成的切分规则由数据集成框架定义接口,具体切分规则交由具体传输插件负责实现,例如:对于 ODPS 而言,数据切分根据 ODPS 表的 Record 偏移量计算数据分片。对于Mysql Reader插件而言,其切分算法按照 Mysql 数据表主键范围切分。image

以 Mysql 抽取数据为例,MysqlReader 启动后将连接源数据端,计算数据表主键范围,如[Min, Max],并根据用户带宽需求切分上述[Min, Max]区间范围,每个子区间将作为一个Task提交给后续传输单元进行执行。例如,上述 Mysql 数据表主键范围在[1,4],MysqlReader根据用户需要的吞吐量计算得出数据切分规则需要两个数据子集,因此将数据区间区分为[1, 2]、[3, 4]两个数据子集,两个数据子集交由不同的同步传输单元完成。

本文导读目录