全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
数据集成

切分与并行

更新时间:2017-09-08 08:18:51

为最大化数据同步的 Job 传输吞吐量,数据集成将对 Job 进行更细粒度的任务切分,并启动多个数据传输单元进行并行数据同步。数据集成的切分规则由数据集成框架定义接口,具体切分规则交由具体传输插件负责实现,例如:对于 ODPS 而言,数据切分根据 ODPS 表的 Record 偏移量计算数据分片。对于Mysql Reader插件而言,其切分算法按照 Mysql 数据表主键范围切分。image

以 Mysql 抽取数据为例,MysqlReader 启动后将连接源数据端,计算数据表主键范围,如[Min, Max],并根据用户带宽需求切分上述[Min, Max]区间范围,每个子区间将作为一个Task提交给后续传输单元进行执行。例如,上述 Mysql 数据表主键范围在[1,4],MysqlReader根据用户需要的吞吐量计算得出数据切分规则需要两个数据子集,因此将数据区间区分为[1, 2]、[3, 4]两个数据子集,两个数据子集交由不同的同步传输单元完成。

本文导读目录