全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
数据集成

数据同步

更新时间:2017-12-08 14:26:46

数据同步的定义

广义的数据同步是指为保持两端数据一致性而进行的数据传输过程。一般来讲,数据集成的数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源端移到数据目的端,并伴随一定的数据转换或者清洗的过程。在数据集成的功能边界中,数据同步定义为云上各种存储产品之间进行的数据转移过程。

数据同步的要素

数据集成同步核心概念主要由三个要素构成:

  • 数据源:指数据同步的数据源存储,包括寻址信息(IP地址、库等信息,用以同步寻址)、同步内容(同步的表、字段信息等)、控制信息(编码清洗等)。
  • 数据目的端:指数据同步的数据目的端存储,包括寻址信息(IP地址、库等信息,用以同步寻址)以及同步内容(同步的表)、控制信息(脏数据处理等)。
  • 数据转换过程:指数据同步过程中存在的数据转换过程,泛指数据的计算、清洗等过程,该过程不是必要条件。

数据同步的种类

  • 离线数据同步

    离线数据同步指的是数据周期性(例如每天、每周、每月等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。离线同步存在生命周期,一个离线同步的任务有开始状态同样也有结束状态。数据集成中是使用Job概念来描述和定义离线同步任务。

  • 流式数据同步

    数据以实时或者准实时将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务自动结束,而将数据的变化日志同步一直持续下去。

    无论是数据流式同步还是离线同步(批处理数据同步),同步的过程都包含上述同步核心要素,也即提取E(Extract)、转换T(Transform)、加载L(Load)。

本文导读目录