离线集成概述

数据管理DMS离线集成是一种低代码的数据开发工具,您可以组合各类任务节点,形成数据流,通过周期调度运行达到数据加工、数据同步的目的。

支持的数据库类型

  • MySQL:RDS MySQLPolarDB MySQL版MyBase MySQLPolarDB分布式版AnalyticDB MySQL 3.0、其他来源MySQL。

  • SQL Server:RDS SQL ServerMyBase SQL Server、其他来源SQL Server。

  • PostgreSQL:RDS PostgreSQLPolarDB PostgreSQL版MyBase PostgreSQLAnalyticDB for PostgreSQL、其他来源PostgreSQL。

  • Oracle

  • DB2

  • MaxCompute

  • Hologres

  • OSS

说明

Hologres只支持数据输入任务节点,OSS只支持数据输出任务节点。

应用场景

DMS离线集成提供的批量处理数据功能,可应用于以下场景:

  • 通过低代码可视化编辑的方式快速搭建离线数仓,支持即席查询、多维分析、数据挖掘、离线计算等数仓应用场景。

  • 解决企业复杂大数据批处理难题,支持企业精细化运营、数据营销、智能推荐等大数据业务场景。

  • 离线集成功能底层基于Spark开发,支持提升Hadoop平台运行速度的应用场景。

说明

如果您在使用该功能的过程中有任何疑问或问题,请使用钉钉搜索钉钉群号31826394,加入钉钉群反馈。

创建数据流流程

shujuliu

操作步骤

  1. 登录数据管理DMS 5.0
  2. 在顶部菜单栏中,选择集成与开发 > 数据集成 > 离线集成

    说明

    若您使用的是极简模式的控制台,请单击控制台左上角的2023-01-28_15-57-17.png图标,选择全部功能 > 集成与开发 > 数据集成 > 离线集成

  3. 单击新增数据流,输入数据流名称,单击确认

  4. 在数据流详情页面,创建数据流节点。具体操作,请参见创建数据流

  5. 在页面下方配置数据流信息。

    1. 单击数据流信息页签,在基础属性区域修改数据流名称描述责任人相关人员

    2. 如果您需要调度数据流,在调度配置区域,打开开启调度开关,配置调度。

      参数

      说明

      调度类型

      选择调度类型:

      • 周期调度:周期性调度任务,例如一周执行一次任务。

      • 调度一次:在指定时间执行一次任务,仅需配置执行的具体时间。

      生效时间

      选择调度周期生效的区间,默认1970-01-01~9999-01-01,表示一直生效。

      调度周期

      选择调度任务的周期。

      • 小时:按设定的小时执行任务调度。

      • :按每日一次的频率执行任务调度,需要配置每日调度的具体时间。

      • :以周为周期,每个指定天执行一次任务调度,需要配置指定时间和具体时间。

      • :以月为周期,每个指定天执行一次任务调度,需要配置指定时间和具体时间。

      定时调度

      调度周期选择小时,需要配置该参数项。有如下两种选择:

      • 固定间隔时间调度:设置调度的时间范围以及调度间隔(单位:小时)。

        例如,配置开始时间为00:00、间隔时间为6小时、结束时间为20:59,系统将在0点、6点、12点、18点执行任务。

      • 指定时间调度:设置指定时间执行任务。

        例如设置0小时和5小时,则系统将会在0点和5点执行任务。

      指定时间

      调度周期选择,需要配置该参数项。

      • 调度周期为周,选择星期几执行任务(可多选)。

      • 调度周期为月,选择每月几号执行任务(可多选)。

      具体时间

      调度周期选择,或调度类型为调度一次时,需要配置该参数项。

      设置执行任务流的具体时间。

      例如配置02:55,系统将在指定天的02时55分执行任务;配置2023-09-28 00:00,系统将在指定天的时间执行任务。

      cron表达式

      cron表达式无需手动配置,系统会根据您配置周期、具体时间自动展现。

    3. 单击高级配置页签,设置变量。具体操作,请参见配置时间变量

  6. 发布数据流。具体操作,请参见发布数据流

  7. 可选:单击画布右上方前往运维,进行数据流的运维。具体操作,请参见数据流运维