DataWorks为您提供多种数据源之间进行不同数据同步场景的同步解决方案,包括实时数据同步、离线全量同步、离线增量同步等同步场景,助力企业数据更高效、更便捷的一键上云。
背景信息
实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。为了解决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,例如“一键实时同步至Elasticsearch”、“一键实时同步至Hologres”和“一键实时同步至MaxCompute”功能等,通过此类功能,您只需要进行简单的配置,就可以完成一个复杂业务场景。
以业务数据库数据同步到MaxCompute数据仓库为例,当有大量的数据存储在数据库系统里,需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时,数据集成传统方式是通过全量同步或者依赖数据库表中的modify_time等字段进行增量同步。但实际生产场景下,数据库表中不一定存在modify_time等字段,因此不能使用传统的基于JDBC抽取的方式进行增量同步。而“一键实时同步至MaxCompute”功能实现了数据库全增量实时同步到MaxCompute以及在MaxCompute上进行自动的全增量合并,可以使整个同步场景化繁为简。
- 全量数据初始化。
- 增量数据实时写入。
- 增量数据和全量数据定时自动合并写入新的全量表分区。
使用限制
DataWorks的同步解决方案暂不支持跨时区同步数据。如果同步任务中同步的数据源与使用的DataWorks资源组不在同一个时区,则会导致同步的数据有误。
支持的数据源
去向数据源 | 来源数据源 | 数据源配置指导 | 同步任务配置指导 |
---|---|---|---|
DataHub |
|
配置查看整库实时同步任务 | |
AnalyticDB MySQL |
|
配置并管理实时同步任务 | |
Elasticsearch |
|
配置数据源(来源为MySQL) | 配置查看整库离线同步任务 |
Hologres |
|
配置查看数据同步任务 | |
MaxCompute |
|
一键实时同步至MaxCompute |
资源使用与费用
使用同步解决方案进行数据同步时,数据集成操作运行在数据集成资源组实例和调度资源组实例上。其中数据集成资源组当前仅能使用独享数据集成资源组,因此,在进行数据同步前,您需要购买独享数据集成资源组,并将资源组添加至DataWorks中,便于后续数据集成任务关联使用。
规格 | 离线同步最大并发线程数 | *实时同步最大任务数 |
---|---|---|
4c8g | 8 | 3 |
8c16g | 16 | 6 |
12c24g | 24 | 9 |
16c32g | 32 | 12 |
24c48g | 48 | 18 |
您可结合待同步的数据量估算并购买独享数据集成资源组,独享数据集成资源组的详细介绍可参见独享数据集成资源。任务调度可运行在公共调度资源组上,或运行在您已购买的独享调度资源组上。
- 同步解决方案本身功能不收费,其是一堆具体子任务的组合,每个子任务按照各自归属的具体类型进行收费。(比如,内部生成的离线和实时同步子任务,使用的是数据集成独享资源组和调度资源组,费用按照对应的资源组来计算)。
- 产生的其他任务,比如一键实时同步至MaxCompute解决方案需要定期做全增量数据周期合并,因此会消耗MaxCompute计算资源。这部分费用由MaxCompute直接收取,费用与用户同步全量数据大小、合并周期正相关。具体费用可以参考MaxCompute计费项与计费方式概述。
网络联通方案
DataWorks的网络连通性解决方案详细可参见网络连通解决方案概览。以下为您概要介绍数据源与独享资源组之间的网络联通方案。
独享数据集成资源组本质上为一组资源实例,购买添加完成后的初始状态下,与其他产品的网络并不联通,因此您需要为独享数据集成资源组绑定网络环境,为后续与数据源进行数据同步做好网络联通的准备。

- 当数据源处于公网环境中时:
数据源所在的公网环境可与独享资源组绑定的VPC直接连接。
- 当数据源与独享资源组处于同一地域的VPC网络环境中时:
- 独享资源组与数据源在同一可用区时,可绑定数据源所在的VPC网络。
- 独享资源组与数据源不在同一可用区时,可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的VPC网络。
- 当数据源与独享资源组处于不同地域的VPC网络环境中时:
- 独享资源组可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的VPC网络。
- 使用高速通道或VPN网关,联通独享资源组绑定的VPC与数据源所在VPC。
- 当数据源处于IDC网络环境中时:
- 独享资源组可绑定一个VPC后并配置路由,将独享资源组路由至数据源所在的IDC网络。
- 使用高速通道或VPN网关,联通独享资源组绑定的VPC与数据源所在IDC网络。
- 当数据源处于阿里云经典网络环境中时:
经典网络与独享资源组使用的VPC网络无法联通,建议您将数据源的网络环境迁移至VPC中。
操作流程
- 资源规划与配置
根据待同步的数据量和网络情况,评估规划并购买您需要使用的独享数据集成资源组和调度资源组,根据规划配置好资源,保障网络连通性。
- 配置数据源
网络通畅后,您还需根据待同步的数据源情况,配置好数据源的可访问性,保障后续数据同步不会因为白名单等限制导致同步失败。
- 添加数据源
分别将来源数据源和去向数据源添加至DataWorks,便于后续创建同步方案时直接关联使用。
- 配置查看数据同步任务
创建同步方案,并根据同步场景设置同步细节参数。
- 支持对已创建的同步解决方案增加和删除表,如果实时同步任务正在运行需要先终止任务,配置增加和删除表后提交执行解决方案,系统会自动新建离线任务和更新实时任务。请参见:增加或删除已运行任务的同步表。
- 同步解决方案的操作流程中,在设置目标表时,当表建立方式为自动建表时,您可以单击表名为您弹出建表语句或者配置框,并且允许您手工修改。请您仔细检查是否满足需求。