DataWorks为您提供的实时数据同步功能,方便您使用单表同步或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。

架构功能

架构图
说明 目前Groovy函数、多路输出处于研发阶段,上线日期待定。
实时数据同步的功能优势如下:
 • 数据源丰富多样

  支持星型链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。

 • 采用解决方案系统

  支持常见数据库的整库同步,实现先全量,再持续增量同步数据。

 • 同步数据方式多样

  您可以选择分库分表、单表或整库多表等多种方式进行数据同步,同时,也可以根据不同DDL消息配置不同实时同步规则。

 • 支持数据处理

  您可以根据业务需求,对输入数据源进行数据过滤字符串替换数据脱敏处理后再进行输出。

 • 支持监控运维告警

  对于业务延迟、Failover、脏数据、心跳检查和失败信息,支持通过邮件、短信、电话和钉钉通知发送相应告警,方便您及时发现并处理报错信息。

 • 使用图形化开发

  无需编写代码,直接通过托拽的方式即可进行任务的开发。业务新手也能够轻松上手。

支持的同步方式及数据源

DataWorks的实时数据同步节点支持多种数据源间的多种数据同步,详情可见下表。
说明 实时同步任务不支持同步视图。
同步方式 来源数据源 去向数据源 数据源配置指导 同步任务配置指导
同步单表数据
 • MySQL Binlog
 • DataHub
 • LogHub
 • Kafka
 • PolarDB
 • SQL Server
 • MaxCompute
 • Hologres
 • AnalyticDB MySQL
 • Elasticsearch
 • DataHub
 • Kafka
配置并管理实时同步任务
同步整库数据
 • PolarDB MySQL
  说明 当前仅支持PolarDB MySQL。
 • Oracle
 • MySQL
MaxCompute 配置并管理实时同步任务
 • PolarDB MySQL
  说明 当前仅支持PolarDB MySQL。
 • Oracle
 • MySQL
 • SQL Server
Hologres 配置并管理实时同步任务
 • PolarDB MySQL
  说明 当前仅支持PolarDB MySQL。
 • OceanBase
 • MySQL
 • Oracle
DataHub 配置并管理实时同步任务
MySQL Kafka 配置数据源(来源为MySQL) 配置并管理实时同步任务

资源使用与费用

使用实时数据同步任务同步数据时,当前仅支持使用独享数据集成资源组。因此,在进行数据同步前,您需要购买独享数据集成资源组,并将资源组添加至DataWorks中,便于后续同步任务使用。

独享数据集成资源组的性能指标如下表。
规格 离线同步最大并发线程数 *实时同步最大任务数
4c8g 8 3
8c16g 16 6
12c24g 24 9
16c32g 32 12
24c48g 48 18
不同地域的各个规格的独享数据集成资源组的定价可参考计费标准。实际支付价格以订单页面为准。

您可结合待同步的数据量估算并购买独享数据集成资源组,独享数据集成资源组的详细介绍可参见独享数据集成资源

最佳实践:离线和实时同步的资源组推荐使用不同资源组,以便任务分开执行,混跑会带来资源抢占、运行态互相影响等问题。例如,CPU、内存、网络等互相影响,可能会导致离线任务变慢或实时任务延迟等问题,甚至在资源不足的极端情况下,可能会出现任务被OOM KILLER杀掉等问题。

网络联通方案

DataWorks的网络连通性解决方案详细可参见网络连通解决方案概览。以下为您概要介绍数据源与独享资源组之间的网络联通方案。

独享数据集成资源组本质上为一组资源实例,购买添加完成后的初始状态下,与其他产品的网络并不联通,因此您需要为独享数据集成资源组绑定网络环境,为后续与数据源进行数据同步做好网络联通的准备。

根据您实际的来源数据源、去向数据源所在网络环境不同,有不同的网络联通方案与独享资源组进行网络联通。实时数据网络联通
 • 当数据源处于公网环境中时:

  数据源所在的公网环境可与独享资源组绑定的VPC直接连接。

 • 当数据源与独享资源组处于同一地域的VPC网络环境中时:
  • 独享资源组与数据源在同一可用区时,可绑定数据源所在的VPC网络。
  • 独享资源组与数据源不在同一可用区时,可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的VPC网络。
 • 当数据源与独享资源组处于不同地域的VPC网络环境中时:
  • 独享资源组可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的VPC网络。
  • 使用高速通道或VPN网关,联通独享资源组绑定的VPC与数据源所在VPC。
 • 当数据源处于IDC网络环境中时:
  • 独享资源组可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的IDC网络。
  • 使用高速通道或VPN网关,联通独享资源组绑定的VPC与数据源所在IDC网络。
 • 当数据源处于阿里云经典网络环境中时:

  经典网络与独享资源组使用的VPC网络无法联通,建议您将数据源的网络环境迁移至VPC中。

操作流程

使用DataWorks的同步解决方案的操作流程一般包含以下几个流程:
 1. 资源规划与配置

  根据待同步的数据量和网络情况,评估规划并购买您需要使用的独享数据集成资源组,根据规划配置好资源,保障网络连通性。

 2. 配置数据源

  网络通畅后,您还需根据待同步的数据源情况,配置好数据源的可访问性,保障后续数据同步不会因为白名单等限制导致同步失败。

 3. 添加数据源

  分别将来源数据源和去向数据源添加至DataWorks,便于后续创建同步方案时直接关联使用。

 4. 配置查看数据同步任务

  创建同步方案,并根据同步场景设置同步细节参数。

说明 同步任务的操作流程中,在设置目标表时,当表建立方式为自动建表时,您可以单击表名为您弹出建表语句或者配置框,并且允许您手工修改。请您仔细检查是否满足需求。
不同数据源的详细同步流程和操作步骤可参见对应指导文档: