整库离线同步任务能力说明

DataWorks数据集成提供便捷高效的整库离线同步解决方案,旨在帮助您将源数据库中的全部或部分表,一次性或周期性地全量/增量迁移到目标数据存储中。该功能极大地简化了传统数据迁移中需要为每张表手动创建同步任务的繁琐流程,能够自动在目标端创建表结构,实现高效、可管理的数据整库搬迁。

使用场景

  • 数据迁移与上云

    • 将本地IDCMySQL、Oracle等数据库迁移到云上数据仓库或数据湖。

    • 不同云平台或数据库系统之间的数据迁移。

  • 数仓/数据湖构建

    周期性地将线上业务数据库(OLTP)的全量或增量数据,批量同步至数据仓库或数据湖的贴源层(ODS),作为后续数据分析的源头。

  • 数据备份与灾备

    • 定期将生产数据库的全量数据备份到低成本的存储介质(如HDFS、OSS)。

    • 跨地域/可用区的数据灾备方案实施。

核心能力

整库同步的核心能力如下:

image

核心能力

功能点

功能说明

异构数据源间的整库同步

-

整库同步支持将本地IDC或其他云平台的数据迁移至MaxCompute、Hologres、OSS等数仓或数据湖。详情请参见:支持的数据源及同步方案

复杂网络环境下的数据同步

-

离线同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通

同步场景

全量同步

支持一次性或周期性的全量数据同步至目标表或指定分区

增量同步

支持一次性或者周期性基于时间、分区或主键的增量数据同步。

全增量一体

首次运行:自动执行一次全量数据同步。

后续运行:自动切换为周期性增量数据同步至指定分区。

库表映射

批量表同步

支持同步整个数据库的所有表,也支持通过勾选或配置过滤规则,精确选择需要同步的部分表。

自动建表

一次配置即可处理源端数据库中的数百张表,系统将自动在目标端创建表结构,无需手动干预。

灵活映射

支持自定义目标库/表命名规则;支持自定义源端和目标端的字段类型映射,灵活适应目标端的数据结构模型。

调度与依赖管理

调度时间

支持按分钟、小时、天、周、月、年等多种调度周期配置。

如果一次性同步的表数量过多,建议配置调度时间时分批执行,防止任务堆积,造成资源挤兑。

任务依赖

整库任务和每个表级别的子任务DataWorks中都可以作为调度依赖的上游任务,被其他开发任务所依赖。当某个表的同步任务完成后,其下游的开发任务也会被自动触发。

参数支持

支持使用调度参数来实现增量同步,如使用${bizdate}表示业务日期。

高级参数

脏数据配置

脏数据指数据写入目标端时因异常(如类型冲突、约束违反)导致失败的数据记录。默认值为false,即不允许脏数据产生,一旦出现脏数据则任务失败;若设置为true,则忽略全部脏数据。

读写端配置

支持分别配置读端和写端数据源的最大连接数;支持定义写入前对目标端的清理策略。

并发与限流

  • 提供任务并发数控制功能来限制数据集成读取和写入数据库的最大并发数。

  • 提供同步速率功能控制流量,避免同步速度过快对数据来源端或者数据去向端造成太大的压力。不限流的情况下则会提供现有硬件环境下最大的传输性能。

任务运维

线上干预

支持重跑、补数据、置成功、冻结/解冻等线上干预操作。

监控报警

支持配置基线、任务状态、运行时长等监控规则,并支持对触发的规则进行告警。

数据质量

任务提交并发布后,可在运维中心为目标表配置数据质量监控规则。支持AI智能生成和手动配置两种模式。目前仅部分数据库类型支持质量规则监控,详情参见:数据质量

开始使用

创建整库离线同步任务参见:配置整库离线同步任务

支持的数据源

当前DataWorks支持各类数据源的数据整库迁移至MaxCompute、OSS、Elasticsearch等,支持的数据源类型如下。

来源数据源

去向数据源

MaxCompute

Hologres

OSS

Elasticsearch

StarRocks