实时集成数据至DataHub

将MySQL、Oracle和PostgreSQL数据实时同步至DataHub,可以通过创建实时集成任务实现。本文为您介绍如何创建目标库为DataHub的实时集成任务。

前提条件

已完成数据源配置。您需要在配置实时集成任务前,配置好您需要集成的数据源,以便在配置实时集成任务过程中,选择对应的来源数据和目标数据。具体操作,请参见实时集成支持的数据源

步骤一:新建实时集成任务

  1. 在Dataphin首页的顶部菜单栏中,选择研发 > 数据集成

  2. 在顶部菜单栏中选择项目(Dev-Prod模式还需要选择环境)。

  3. 在左侧导航栏中选择集成 > 实时集成,在右侧实时集成列表中单击image图标,选择实时集成任务

  4. 新建实时集成任务对话框中,填写任务名称描述选择目录

    参数

    描述

    任务名称

    填写实时任务名称。

    以字母开头,仅包含小写英文字母、数字、下划线(_),长度限制为4~63个字符。

    描述

    填写任务的简单描述信息,长度不超过1000个字符。

    选择目录

    选择实时任务所存放的目录。

    若未创建目录,您可以新建文件夹,操作方法如下:

    1. 在页面左侧实时任务列表上方单击image图标,打开新建文件夹对话框。

    2. 新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。

    3. 单击确定

  5. 配置完成后,单击确定

  6. 在新建的实时集成任务中,配置来源数据目标数据

    分区

    参数

    描述

    来源数据

    数据源类型

    选择数据源类型。支持MySQL、Oracle和PostgreSQL。

    数据源

    选择已创建的数据源。

    系统提供新建数据源快捷操作入口,您可以单击新建,在数据源页面新建数据源。具体步骤,请参见实时集成支持的数据源

    重要

    需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

    同步方案

    默认实时增量

    说明

    将源数据库的增量变更按照变更发生的顺序采集并写入到下游目标库中。

    圈选方式

    支持整库、圈选表、排除表三种方式。

    • 整库:对当前数据库进行整库数据同步。

      仅当来源数据源类型选择MySQL时,将同步所选数据源下所有数据库中的所有表。

    • 圈选表/排除表:选中当前数据库中部分表进行实时同步。

      • 批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

        来源数据源类型选择MySQL时,支持选择所选数据源下所有数据库中的所有表,列表中以DBname.Tablename格式展示各表。

        来源数据源类型选择PostgreSQL时,不支持排除表方式。

      • 正则匹配:可在正则表达式输入框内填写表名的正则表达式。适用Java正则表达式,如schemaA.*|schemaB.*

        仅当来源数据源类型选择MySQL时,支持批量匹配所选数据源下所有数据库中的所有表,可使用数据库名(DBname)和表名(Tablename)进行正则匹配。

        来源数据源类型选择PostgreSQLMicrosoft SQL ServerIBM DB2时,不支持正则匹配

    目标数据

    数据源类型

    选择Datahub数据源类型。

    数据源

    选择目标数据源。

    系统提供新建数据源快捷操作入口,您可以单击新建,在数据源页面新建DataHub数据源。具体操作,请参见创建DataHub数据源

    目标Topic建立方式

    支持新建Topic使用已有Topic建立方式

    新建Topic:通过手动填写目标Topic方式进行建立。

    使用已有Topic:使用目标库已有Topic,需确保该Topic的schema与同步消息的格式保持一致,否则会导致同步任务失败。

    目标Topic

    • 目标Topic建立方式新建Topic

      您需手动填写目标Topic目标Topic仅限填写以小写字母开头,3到64字符以内数字、字母、下划线(_)。

      完成填写后您可单击校验,校验目标库中是否已存在所填写的Topic。

      • 填写的Topic在目标库不存在,将自动在目标库中进行创建,schema为同步消息的schema,生命周期默认为7天。

      • 填写的Topic在目标库已存在,请确保Topic的schema与同步消息的schema保持一致,否则将导致任务运行失败。

    • 目标Topic建立方式使用已有Topic

      单击下拉列表选择目标库已存在的Topic。Topic较多时,您可输入Topic名称搜索所需Topic。

  7. 配置完成后,单击保存

步骤二:配置实时任务属性

  1. 单击当前实时集成任务页签顶部菜单栏中的资源配置,或单击右侧边栏的属性,打开属性面板。

  2. 分别配置当前实时集成任务的基本信息资源配置

    • 基本信息:选择当前实时集成任务的开发负责人运维负责人,并填入当前任务的相应描述,不超过1000个字符。

    • 资源配置:详情请参见实时集成资源配置

步骤三:提交实时集成任务

  1. 单击提交,提交当前实时集成任务。

  2. 提交对话框,输入提交备注信息并单击确定并提交

  3. 完成提交后,在提交对话框中,可查看提交详情。

    如果项目的模式为Dev-Prod,则您需要发布实时集成任务至生产环境。具体操作,请参见管理发布任务

后续步骤

可在运维中心查看并运维实时集成任务,保证任务的正常运行。具体操作,请参见查看并管理实时任务