离线数据集成节点赋予任务流进行数据传输的能力,帮助您实现数据源之间的数据同步。本文介绍配置离线数据集成节点的方法。
应用场景
离线集成节点主要用于数据迁移、数据传输等场景。
功能特性
不限制来源表和目标表数据库类型。
支持字段映射,包含修改源表和目标表字段的命名和类型映射。
可配置并发迁移数据。
支持通过WHERE语句,对迁移数据进行预过滤。
支持前置及后置SQL语句,在导入数据前后实现数据处理。
使用限制
系统在计算数据量过大且缺失主键的表时,会导致内存溢出或内存耗尽(OOM)。
周期调度节点最近一次运行成功后,若连续运行失败10次及以上,离线集成任务直接执行失败,且不会再提交Spark任务。此时,您需要手动运行成功该任务节点。
操作步骤
- 登录数据管理DMS 5.0。
在顶部菜单栏中,选择 。
说明若您使用的是极简模式的控制台,请单击控制台左上角的图标,选择
。单击目标任务流名称,进入任务流详情页面。
说明如果您需要新增任务流,请参见新增任务流。
可选:单击图标,您还可以展开任务流基本信息配置面板。
说明单击图标,缩回任务流基本信息配置面板。
在画布左侧任务类型列表中,拖拽离线数据集成节点到画布空白区域。
双击离线数据集成节点。
可选:在离线数据集成节点的配置页面,单击页面右侧的变量设置,配置该节点需要引用的变量。您可以单击变量设置区域右上角的,查看配置变量的提示信息。
在离线数据集成节点的配置页面,配置离线数据集成节点。
分类
配置项
描述
数据源配置
源库
搜索并选择来源库。
源表
选择源表。
目标库
搜索并选择目标库。
目标表
如果目标表存在,选择目标表。
如果目标表不存在:
单击目标表下拉框下方的创建目标表。
可选:在生成创建表脚本对话框中,按需求修改自动生成的SQL语句。
单击提交执行。
选择目标表。
源表配置
数据过滤
填写WHERE过滤语句。支持使用变量。
推荐分片字段
默认取值为自动。
最大并发数量
选择最大并发数量,默认取值为4。
说明DMS限制单个租户的并发Spark任务数量,超过4后,任务将会排队执行。
目标表配置
导入数据前置行为
输入导入数据前执行的SQL语句,选择是否清空目标表数据。
导入数据后置行为
输入导入数据后执行的SQL语句。
字段映射
-
您可以根据需要选择目标表全部字段的映射关系。
同名映射:系统默认将同名字段连接为映射关系。
说明您需要手动为未添加映射关系的目标表字段添加映射关系。
同行映射:将同行的字段连接为映射关系。
手动映射:
可选:单击取消映射,取消字段的映射关系。
将鼠标移动到目标源表字段上,单击字段类型右侧出现的空心圆点并拉出连接线,连接至目标表字段上。
可选:为全部目标表字段添加映射关系后,单击自动排版,重排目标表字段的顺序。
单击页面左上角的试运行,在提示对话框中单击确认,试运行离线数据集成节点。
运行时间与数据规模成正比,数据规模越大,运行耗时时间越长。
如果执行日志的最后一行出现
status SUCCEEDED
,表明任务试运行成功。试运行成功后,您可以在目标库的SQL窗口中,查询目标表中已迁移的数据。
如果执行日志的最后一行出现
status FAILED
,表明任务试运行失败。若试运行失败,您可在执行日志中查看执行失败的节点和原因,修改配置后重新尝试。
说明在数仓开发的标准模式下,试运行离线数据集成节点时,该节点会空跑,以避免造成不期望的影响。