完成数据源、网络、资源的准备工作配置后,您可以创建并执行同步任务。本文为您介绍如何创建一键实时数据同步任务,并在创建完成后查看任务运行情况。
前提条件
创建数据同步任务前,需检查已完成以下准备操作。
- 已配置数据源。
数据同步基于数据源控制读写端数据库,您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,以便在同步过程中,可通过选择数据源名称来控制同步读取和写入的数据库或数据仓库,数据源配置,详情请参见数据源概述。
- 已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组。
- 独享数据集成资源组与数据源网络已打通。详情请参见:配置资源组与网络连通。
- 已配置数据库环境.
在同步前,请确保数据库相关配置已开启,例如已开启binlog服务,已授予数据源配置账号操作数据库权限等,数据库相关的环境准备,详情请参见数据库环境准备概述。
注意事项
本方案每天会生成一个全量分区,为避免数据过多占用存储资源,本方案任务自动建立的MaxCompute表,默认生命周期为30天。
如果时长不满足您的业务需求,可以在配置任务时单击对应的MaxCompute表名修改生命周期。
使用限制
仅支持与当前工作空间同地域的自建MaxCompute数据源,跨地域的MaxCompute项目在测试数据源服务连通性时可以正常连通,但同步任务执行时,在MaxCompute建表阶段会报引擎不存在的错误。说明 使用自建MaxCompute数据源时,DataWorks项目仍然需要绑定MaxCompute引擎,否则将无法创建MaxCompute SQL节点,导致全量同步标done节点创建失败。
计费说明
一键实时同步至MaxCompute解决方案需要定期做全增量数据周期合并,因此会消耗MaxCompute计算资源。这部分费用由MaxCompute直接收取,费用与用户同步全量数据大小、合并周期正相关。具体费用请参考计费项与计费方式概述。
创建同步解决方案任务
执行数据同步解决方案任务
在解决方案任务列表页面,单击相应任务后的提交执行,运行创建的数据同步解决方案任务。
附:Base表数据未产出排查思路
同步至MaxCompute全增量Merge分为两个阶段:
- 实时同步产出增量数据log表
- Merge任务将Base表全量数据与实时同步产出的增量数据进行Merge,最后将结果写入Base表。目前Merge周期为1天。
Merge流程 | 现象 | 原因 | 解决方案 |
---|---|---|---|
![]() |
增量Log表T-1分区数据产出检查失败 | 实时同步任务执行异常,导致增量Log表T-1数据未正常产出。 |
|
目标Base表T-2分区产出检查失败 |
|
|