本文以Oracle同步至表格存储Tablestore场景为例,为您介绍如何通过数据集成将Oracle的某张表数据实时同步到Tablestore。
使用限制
本实践仅支持使用独享数据集成资源组。
前提条件
已完成来源数据源、去向数据源的配置。
本实践以Oracle作为来源数据源,以Tablestore作为去向数据源,因此您需要在DataWorks的工作空间的数据源管理页面新增Oracle数据源和Tablestore数据源,两个数据源支持的数据同步能力请参见Oracle数据源、Tablestore数据源。
已购买独享数据集成资源组,并为资源组绑定工作空间、完成网络连通配置。
本实践仅支持使用独享数据集成资源组,您需购买并配置独享资源组,保障资源组与Oracle数据源、Tablestore数据源网络连通,独享数据集成资源组的购买与配置操作请参见新增和使用独享数据集成资源组。
创建同步任务
登录并进入数据集成子模块页面,单击同步任务进入同步任务页面,在页面中单击新增任务,开始配置同步任务。
配置同步任务基本信息。
任务名称:自定义。
同步类型:来源数据源选择Oracle,去向数据源选择Tablestore;并选择单表实时同步方案。
网络与资源配置:在下拉框中分别选择已创建的Oracle数据源、Tablestore数据源、独享数据集成资源组,单击测试所有连通性,保障资源组与数据源之间的网络连通性。
配置Oracle来源信息。
单击页面上方的Oracle来源,在Oracle来源信息选择所需要同步Oracle表的Schema、表名。
单击右上角的数据采样。
在弹出对话框中指定好采样条数后,单击开始采集按钮进行数据采样,采样后您可快速预览源表数据。
编辑数据处理节点。
单击图标可以增加数据处理方式。目前提供5种数据处理方式,您可根据需要做顺序编排,在任务运行时会按照编排的数据处理先后顺序执行数据处理,5种数据处理方式包括:数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值。
每完成一个数据处理节点配置,可以单击右上角的数据输出预览按钮,在弹出对话框中,单击重新获取上游输出,模拟得到Oracle采样数据经过当前数据处理节点处理后的结果。
在数据输出预览窗口,您可以根据需要修改输入数据,或者单击手工构造数据按钮自定义输入数据,然后单击预览按钮,查看当前数据处理节点对数据的处理结果,当数据处理节点处理异常,或者产生脏数据时,也会实时反馈异常信息,能够帮助您快速评估数据处理节点配置的正确性,以及是否能得到预期结果。
说明数据输出预览强依赖Oracle来源的数据采样,在执行数据输出预览前需要先在Oracle来源表单中完成数据采样。
配置Tablestore去向信息。
单击页面上方的Tablestore,编辑Tablestore去向源信息。
配置基本信息。
选择要写入的Tablestore目标表。
选择要写入的Tablestore表数据更新模式。支持两种数据更新模式:
replace:行变更,直接使用更新后的数据覆盖原有行。
update:列变更,只针对数据发生变化的列进行更新。
配置字段映射。
在输出字段区域为您展示Tablestore表结构中的主键字段、属性字段。您也可以通过单击重新获取表字段重新触发表结构查询。还支持您单击批量添加源端字段为属性字段快速把源表中的字段,添加为Tablestore表的属性字段。
准备好Tablestore目标表字段后,您可以配置源表和目标表之间的字段映射,支持同名映射、同行映射或您可将鼠标悬浮在字段映射连线上手动编辑字段间的映射关系。当上游列未配置到Tablestore表列的映射时,对应列不会写入Tablestore表。
高级参数配置。
如果需要对任务做精细化配置,达到自定义同步需求,单击页面右上角的高级参数配置,对读同步任务的读端、写端以及运行时的参数进行配置。
报警配置。
为能够及时感知到同步任务的异常并做出响应和处理,您可以对同步任务设置不同的报警策略。
模拟运行。
完成上述所有任务配置后,您可以通过模拟运行功能,模拟整个任务针对采样数据的处理,查看数据写入Tablestore表后的结果。当任务配置错误、模拟运行过程中异常或者产生脏数据时,会实时反馈出异常信息,能够帮助您快速评估任务配置的正确性,以及是否能得到预期结果。
任务运维
启动同步任务
完成配置之后,界面会自动跳转到任务列表页面,您可以单击对应任务的操作列的启动按钮,启动同步任务。
在初次启动任务时,您需要指定该任务的启动位点,以下图为例选择2023-08-16 11:00:00,表示从该时间点的实时数据开始同步。
查看任务运行状态
创建完成同步任务后,您可以在同步任务页面,找到已创建的同步任务,单击任务名称或执行概况空白处,查看任务的运行详情。
运行日志:您可以查看实时任务的运行日志。
Failover:在任务出现异常、内存不足等问题时,会触发Failover自动重启任务,您可以查看任务的Failover历史记录。
运行信息:查看当前任务的同步信息。
DDL记录:当源端发生DDL时,DDL会被记录到此处。
任务重跑
直接重跑:不修改任务配置,直接单击同步任务操作列的更多>重跑。
效果:重新运行一次从结构迁移到启动实时同步的流程。
修改后重跑:编辑任务,进行修改操作后,单击完成。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。
效果:实时同步任务会按照新的配置运行。