配置离线数据集成节点

离线数据集成节点赋予任务流进行数据传输的能力,帮助您实现数据源之间的数据同步。本文介绍配置离线数据集成节点的方法。

应用场景

离线集成节点主要用于数据迁移、数据传输等场景。

功能特性

  • 不限制来源表和目标表数据库类型。

  • 支持字段映射,包含修改源表和目标表字段的命名和类型映射。

  • 可配置并发迁移数据。

  • 支持通过WHERE语句,对迁移数据进行预过滤。

  • 支持前置及后置SQL语句,在导入数据前后实现数据处理。

使用限制

  • 系统在计算数据量过大且缺失主键的表时,会导致内存溢出或内存耗尽(OOM)。

  • 周期调度节点最近一次运行成功后,若连续运行失败10次及以上,离线集成任务直接执行失败,且不会再提交Spark任务。此时,您需要手动运行成功该任务节点。

操作步骤

  1. 登录数据管理DMS 5.0
  2. 在顶部菜单栏中,选择集成与开发 > 数据开发 > 任务编排

    说明

    若您使用的是极简模式的控制台,请单击控制台左上角的2023-01-28_15-57-17.png图标,选择全部功能 > 集成与开发 > 数据开发 > 任务编排

  3. 单击目标任务流名称,进入任务流详情页面。

    说明

    如果您需要新增任务流,请参见新增任务流

  4. 可选:单击5展开2图标,您还可以展开任务流基本信息配置面板。

    说明

    单击缩回图标,缩回任务流基本信息配置面板。

  5. 在画布左侧任务类型列表中,拖拽离线数据集成节点到画布空白区域。

  6. 双击离线数据集成节点。

  7. 可选:在离线数据集成节点的配置页面,单击页面右侧的变量设置,配置该节点需要引用的变量。您可以单击变量设置区域右上角的提示,查看配置变量的提示信息。

    • 单击节点变量页签,配置节点变量。具体配置,请参见配置时间变量

    • 单击任务流常量页签,配置任务流常量。任务流常量为固定值,在所有节点中都可使用,在SQL中的使用格式为${name}

    • 单击任务流变量页签,配置任务流变量。具体配置,请参见配置时间变量

    • 单击输入变量页签,可查看上游变量、运行状态变量和系统变量。

  8. 在离线数据集成节点的配置页面,配置离线数据集成节点。

    分类

    配置项

    描述

    数据源配置

    源库

    搜索并选择来源库。

    源表

    选择源表。

    目标库

    搜索并选择目标库。

    目标表

    • 如果目标表存在,选择目标表。

    • 如果目标表不存在:

      1. 单击目标表下拉框下方的创建目标表

      2. 可选:生成创建表脚本对话框中,按需求修改自动生成的SQL语句。

      3. 单击提交执行

      4. 选择目标表。

    源表配置

    数据过滤

    填写WHERE过滤语句。支持使用变量。

    推荐分片字段

    默认取值为自动

    最大并发数量

    选择最大并发数量,默认取值为4。

    说明

    DMS限制单个租户的并发Spark任务数量,超过4后,任务将会排队执行。

    目标表配置

    导入数据前置行为

    输入导入数据前执行的SQL语句,选择是否清空目标表数据。

    导入数据后置行为

    输入导入数据后执行的SQL语句。

    字段映射

    -

    您可以根据需要选择目标表全部字段的映射关系。

    • 同名映射:系统默认将同名字段连接为映射关系。

      说明

      您需要手动为未添加映射关系的目标表字段添加映射关系。

    • 同行映射:将同行的字段连接为映射关系。

    • 手动映射:

      1. 可选:单击取消映射,取消字段的映射关系。

      2. 将鼠标移动到目标源表字段上,单击字段类型右侧出现的空心圆点并拉出连接线,连接至目标表字段上。

      3. 可选:为全部目标表字段添加映射关系后,单击自动排版,重排目标表字段的顺序。

  9. 单击页面左上角的试运行,在提示对话框中单击确认,试运行离线数据集成节点。

    运行时间与数据规模成正比,数据规模越大,运行耗时时间越长。

    • 如果执行日志的最后一行出现status SUCCEEDED,表明任务试运行成功。

      试运行成功后,您可以在目标库的SQL窗口中,查询目标表中已迁移的数据。

    • 如果执行日志的最后一行出现status FAILED,表明任务试运行失败。

      若试运行失败,您可在执行日志中查看执行失败的节点和原因,修改配置后重新尝试。

    说明

    在数仓开发的标准模式下,试运行离线数据集成节点时,该节点会空跑,以避免造成不期望的影响。