单表实时同步能力说明

更新时间: 2025-08-29 17:48:42

DataWorks为您提供的实时数据同步功能,方便您使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。

核心能力

实时同步支持的能力如下图所示:

image

能力

描述

多种数据源间的数据同步

实时同步支持多种数据源,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见支持的数据源及同步方案

复杂网络环境下的数据同步

实时同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通方案

同步场景

实时同步支持单表实时数据同步至目标端单表、分库分表实时增量数据同步至目标端单表。

  • 单表增量实时同步

    • 数据开发:拖拽式配置单表到单表ETL同步,支持数据过滤、字符串替换、数据脱敏等数据处理功能。

    • 数据集成:向导化配置单表到单表ETL同步,除了丰富的数据处理功能外,还支持数据采样、模拟运行、高级参数等高级功能。

  • 分库分表至单表全增量实时同步

    当前仅支持MySQL和PolarDB写入MaxCompute的分库分表实时同步,分库分表同步可以将源端表结构一致的表合并为一张逻辑表写入目的端单表。

实时同步任务配置

实时同步任务配置时支持的能力如下,您无需编写代码,通过简单的任务配置即可实现单表ETL实时数据的收集。详情请参见:配置单表实时同步任务分库分表同步至MaxCompute

单表实时同步:

  • 配置方式:支持图形化拖拽或向导式的低代码开发。无需编写代码,业务新手也能够轻松上手。

  • 字段映射:支持同名映射、同行映射,并支持自定义字段关系。若上游字段没有对应字段在目标表中没有对应字段,可以指定加列、忽略或报错的动态字段处理策略。同步任务同时提供对目标字段进行常量变量函数动态赋值功能。

  • 数据处理:支持对源端数据进行数据过滤字符串替换数据脱敏JSON解析等处理,再将处理后的数据输出至目标数据库。

  • 代码调试:支持对源端数据源进行数据采样,并在每个数据处理过程输出中间结果,通过模拟运行,模拟最终数据输出。模拟运行输出的数据不会写入目标表,无需担心调试过程对真实数据的影响。

分库分表实时同步:

  • 逻辑表规则设置:通过正则表达式设置来源表的搜索整合范围,作为分库分表来源,设为逻辑表。并设置逻辑表与目标表的映射关系。

  • DDL和DML规则设置:设置源端的DDL和DML变更对目标表的影响支持,可根据变更类型选择目标表的具体应对措施。

实时同步任务运维

支持对同步任务设置监控报警

  • 支持断点续传。您可以在任务中断或因异常波动导致数据丢失时,指定合适的时间点位,保障数据的完整性。

  • 支持对业务延迟、Failover、DDL策略、心跳检查设置监控报警。详情请参见:实时同步任务运维

  • 并通过邮件、短信、电话和钉钉等方式将报警信息发送给报警接收人,方便您及时发现并处理任务异常。

  • 支持报警疲劳度控制。为了避免短时间内产生大量报警,DataWorks支持您设置当前规则在指定时间间隔内只发送一次报警信息。

  • 支持心跳检测,并随任务启停自动开启/关闭心跳报警功能。如手动关闭,则保持现状。

说明
  • 实时同步不支持在数据开发界面运行任务,您需要保存、提交实时同步节点后,在生产环境运维中心运行该节点。

  • 实时同步任务不支持同步视图。

支持的数据源

重要
  • 数据开发和数据集成支持的数据源有部分重叠,如您需要使用的类型在数据集成侧已支持,更推荐在数据集成侧创建实时同步任务。

  • 数据集成侧支持的数据源的源端和目的端并非任意组合,具体支持类型见配置来源和去向数据源时的支持的同步类型

数据开发

源端:MySQL、DataHub、LogHub、Kafka、PolarDB。

目的端:MaxCompute、Hologres、AnalyticDB MySQL 3.0、Elasticsearch、DataHub、Kafka。

数据处理:数据过滤、字符串替换、数据脱敏。

数据集成

源端:Kafka、Hologres、Oracle、LogHub、DataHub。

目的端:ApsaraDB for OceanBase、Data Lake Formation(DLF)、Doris、Hologres、MaxCompute、OSS、OSS-HDFS、StarRocks、Tablestore。

数据处理:数据过滤、字符串替换、数据脱敏、JSON解析、字段编辑与赋值。

开始使用

常见问题

实时同步任务常见问题请参见实时同步常见问题

上一篇: 离线同步任务数据向量化处理 下一篇: DataStudio侧实时同步任务配置
阿里云首页 大数据开发治理平台 DataWorks 相关技术圈