创建数据流

在数据管理DMS离线集成中,可以组合各类任务节点,形成数据流,通过周期调度运行达到数据加工、数据同步的目的。本文介绍创建数据流和配置的方法。

前提条件

支持的数据库类型:

  • MySQL:RDS MySQLPolarDB MySQL版MyBase MySQLPolarDB分布式版AnalyticDB MySQL 3.0、其他来源MySQL

  • SQL Server:RDS SQL ServerMyBase SQL Server、其他来源SQL Server

  • PostgreSQL:RDS PostgreSQLPolarDB PostgreSQL版MyBase PostgreSQLAnalyticDB for PostgreSQL、其他来源PostgreSQL

  • Oracle

  • DB2

  • MaxCompute

  • Hologres

    说明

    Hologres只支持数据输入任务节点。

  • OSS

    说明

    OSS只支持数据输出任务节点。

操作步骤

  1. 登录数据管理DMS 5.0
  2. 在顶部菜单栏中,选择集成与开发 > 数据集成 > 离线集成

    说明

    若您使用的是极简模式的控制台,请单击控制台左上角的2023-01-28_15-57-17.png图标,选择全部功能 > 集成与开发 > 数据集成 > 离线集成

  3. 单击目标数据流,进入数据流详情页面。

  4. 配置数据输入节点。

    说明

    数据流的第一个节点必须是数据输入,为数据流提供数据源。

    1. 在左侧任务类型列表中,拖拽数据输入节点到画布空白区域。

    2. 单击数据输入节点,在页面下方的数据源页签中配置数据源信息。

      配置项

      操作

      数据库类型

      选择源数据库的类型。

      数据库

      1. 输入并选择数据流读取数据的源数据库。

      2. (可选)若数据库为非安全协同模式,还需要在弹出的登录实例对话框中,输入数据库账号数据库密码

      选择数据流读取数据的源表。

  5. 以过滤源表数据为例,配置数据处理节点。

    说明

    数据输入数据输出外,其他任务类型均可作为数据处理节点。

    1. 在左侧任务类型列表中,拖拽数据过滤节点到画布的空白区域。

    2. 将鼠标放在数据输入节点上,单击节点右侧出现的空心圆点并拉出连接线,连接至数据过滤节点上。

      连接节点

    3. 单击数据过滤节点,在页面下方的数据过滤页签中配置数据的过滤条件表达式

      例如,在过滤条件表达式文本框中输入name='小明'

      说明

      您可以直接在输入框中输入过滤条件,也可以双击函数列表的函数辅助编写。

  6. 配置数据输出节点。

    说明

    数据流的最后一个节点必须是数据输出,提供处理后的数据要写入的目标表。

    1. 在左侧任务类型列表中,拖拽数据输出节点到画布的空白区域。

    2. 单击数据输出节点,在页面下方的数据输出页签中配置数据输出节点。

      • 数据库:

        配置项

        描述

        数据库类型

        选择输出数据的目标数据库类型。

        数据库

        搜索并选择输出数据的目标数据库。

        说明

        如果数据库未登录,在登录实例对话框中,输入数据库账号数据库密码登录数据库。

        表名

        选择或输入数据流输出数据的目标表。

        写入前执行语句

        输入写入数据之前需要执行的SQL语句。

        写入后执行语句

        输入写入数据之后需要执行的SQL语句。

        是否自动建表

        打开或关闭是否自动建表开关。

        • 开关关闭:如果表不存在,在执行任务时不会自动创建表,任务流会执行失败。

        • 开关打开:如果表不存在,在执行任务时会自动创建表,任务流继续执行。

      • OSS:

        配置项

        描述

        数据库类型

        选择OSS。

        OSS Bucket

        搜索并选择OSS的Bucket。

        OSS路径

        输入数据在OSS中的保存路径。

        表名

        输入数据流写入数据的目标表。

        覆盖目标表

        打开或关闭覆盖目标表开关。

        • 开关关闭:直接写入数据。

        • 开关打开:如果表已存在,先清空目标表或者分区数据,再写入数据。

        文件格式

        选择文件存储格式。

        支持4种文件存储格式:Parquet、ORC、Avro和CSV。

        压缩

        选择文件的压缩方式。

        分区

        选择数据的分区键。您可以通过分区键中的值,快速查找您需要的数据。

        说明

        已配置数据输入节点和连接各节点,您才能选择分区键。

    3. 将鼠标放在数据过滤节点上,单击节点右侧出现的空心圆点并拉出连接线,连接至数据输出节点上。

      此时,节点的!自动消失,表示数据流的节点上下游依赖完整。