DataWorks的离线同步节点提供读取(Reader)和写入(Writer)插件,简化了从源数据库到目标数据库的数据迁移过程。您可以在可视化界面配置数据源与目标源,结合DataWorks的调度能力,实现全量或增量数据同步。本文将以MaxCompute作为源数据库,Hologres作为目标数据库,为您介绍如何使用离线同步节点完成数据同步。
前提条件
(可选,RAM账号需要)进行任务开发的RAM账号已被添加至对应工作空间中,并具有开发或空间管理员(权限较大,谨慎添加)角色权限,添加成员的操作详情请参见为工作空间添加空间成员。
说明如果您使用的是主账号,则可忽略该添加操作。
已在DataWorks配置MaxCompute数据源、Hologres数据源并通过连通性测试,详情请参见创建并管理数据源。
说明离线同步节点支持多种数据源,详情请参见支持的数据源列表。
使用限制
DataWorks的离线同步暂不支持跨时区同步数据。如果数据同步任务中的数据源与使用的DataWorks资源组不在同一个时区,则会导致同步的数据有误。
1. 新建离线同步节点
已创建离线同步节点,详情请参见创建周期任务。
2. 配置网络与资源
在离线同步节点编辑页面,依次完成数据来源类型、来源数据源名称、资源组配置、数据去向类型、去向数据源名称的信息配置,并保证数据来源:可连通。
3. 配置同步任务
在配置离线任务向导页面,您可根据以下不同方式来配置离线同步任务。
通常推荐使用直观简便的向导模式进行配置。如果数据源不支持通过向导模式来配置任务,您可以选择使用页面上方的脚本模式手动编辑和配置离线同步任务。
如果将向导模式切换为脚本模式,将无法重新切换回向导模式,只能重新创建离线同步节点。
4. 配置调试参数
在离线同步任务配置页面右侧单击调试配置,配置以下参数,在调试运行中使用调试配置的相关参数测试运行。
配置项 | 配置说明 |
资源组 | 选择配置网络与资源时的Serverless资源组。 |
脚本参数 | 如果您的离线同步任务中配置了参数,则需在调试配置中为参数手动赋值,确保在集成任务在调试运行时顺利拿到参数。 说明 当您同步分区表并默认选中分区过滤时,并设置了分区参数为${bizdate},调试运行需配置bizdate为源表中存在的分区。 |