创建实时集成任务

实时集成支持多种来源端数据源汇聚组合至目标端数据源,形成实时同步链路进行数据同步。本文为您介绍如何创建实时集成任务。

前提条件

已完成数据源配置。您需要在配置实时集成任务前,配置好您需要集成的数据源,以便在配置实时集成任务过程中,选择对应的来源数据和目标数据。具体操作,请参见实时集成支持的数据源

背景信息

  • 目标数据源类型选择OracleMySQL时,将采用JDBC协议,不同的消息将采用以下处理策略。

    • 结果表不存在主键时。

      • 接收到INSERT消息时,将直接进行Append写入。

      • 接收到UPDATE_BEFORE消息时,将会被直接丢弃,不做处理;接收UPDATE_AFTER消息时,将直接进行Append写入。

      • 接收到DELETE消息时,将会被直接丢弃,不做处理。

    • 结果表存在主键时。

      • 接收到INSERT消息时,将作为UPSERT消息进行处理。

      • 接收到UPDATE_BEFORE消息时,将会被直接丢弃,不做处理;接收UPDATE_AFTER消息时,将作为UPSERT消息进行处理。

      • 接收到DELETE消息时,将作为DELETE消息进行处理。

  • JDBC协议为立即写,当任务Failover的情况下且结果表没有主键时,可能存在重复数据,不支持Exactly-Once保证。

  • JDBC协议仅支持建表DDL和加字段DDL,其他类型的DDL消息将会被直接丢弃。

  • Oracle目前仅支持基本数据类型,不支持INTERVAL YEARINTERVAL DAY、BFILE、SYS.ANY、XML、地图类型、ROWID、UROWID数据类型

  • MySQL目前仅支持基本数据类型,不支持地图类型。

  • 为避免乱序导致的数据不一致情况,仅支持单并发。

  • Oracle数据源支持Oracle Database 11g、Oracle Database 19c、Oracle Database 21c版本。

  • MySQL数据源支持MySQL8.0、MySQL8.4MySQL5.7版本。

步骤一:新建实时集成任务

  1. Dataphin首页的顶部菜单栏中,选择研发 > 数据集成

  2. 在顶部菜单栏中选择项目(Dev-Prod模式需要选择环境)。

  3. 在左侧导航栏中,选择集成 > 实时集成

  4. 单击实时集成列表中的image图标,选择实时集成任务,打开新建实时集成任务对话框。

  5. 新建实时集成任务对话框中,配置以下参数。

    参数

    描述

    任务名称

    填写实时任务名称。

    以字母开头,仅包含小写英文字母、数字、下划线(_),长度限制为4~63个字符。

    生产/开发环境队列资源

    可选择所有配置为实时任务的资源组。

    说明

    仅当项目所使用的计算源是部署模式为KubernetesFlink计算源时,支持此配置项。

    描述

    填写任务的简单描述信息,长度不超过1000个字符。

    选择目录

    选择实时任务所存放的目录。

    若未创建目录,您可以新建文件夹,操作方法如下:

    1. 在页面左侧实时任务列表上方单击image图标,打开新建文件夹对话框。

    2. 新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。

    3. 单击确定

  6. 配置完成后,单击确定

步骤二:配置实时集成任务

不同实时计算引擎支持的来源和目标数据源不同,详情请参见实时集成支持的数据源

来源数据源

MySQL

参数

描述

数据源配置

数据源类型

选择MySQL

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建MySQL数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

时区

展示所选数据源配置的时区信息。

同步规则配置

同步方案

可选择实时增量实时增量+全量,默认为实时增量

  • 实时增量:将源数据库的增量变更按照变更发生的顺序采集并写入到下游目标库中。

  • 实时增量+全量:将源数据库的全量数据一次性导入后再将增量变更按照变更发生的顺序采集并写入下游目标库中。

说明

目标数据源选择Hive(Hudi表格式)MaxComputeDatabricks时,同步方案支持选择实时增量+全量

圈选方式

支持整库、圈选表、排除表三种方式。

  • 整库:同步所选数据源下所有数据库中的所有表。

  • 圈选表/排除表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择/排除表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作(正则匹配不支持删除操作)。

    • 批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

      支持选择所选数据源下所有数据库中的所有表,列表中以DBname.Tablename格式展示各表。

    • 正则匹配:可在正则表达式输入框内填写表名的正则表达式。适用Java正则表达式,如schemaA.*|schemaB.*

      支持批量匹配所选数据源下所有数据库中的所有表,可使用数据库名(DBname)和表名(Tablename)进行正则匹配。

Microsoft SQL Server

参数

描述

数据源配置

数据源类型

选择Microsoft SQL Server

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Microsoft SQL Server数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

时区

展示所选数据源配置的时区信息。

同步规则配置

同步方案

仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。

圈选方式

支持整库、圈选表、排除表三种方式。

  • 整库:对当前数据库进行整库数据同步。

  • 圈选表/排除表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择/排除表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作。

    批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

PostgreSQL

参数

描述

数据源配置

数据源类型

选择PostgreSQL

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建PostgreSQL数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

时区

展示所选数据源配置的时区信息。

同步规则配置

同步方案

仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。

圈选方式

支持整库和圈选表两种方式。

  • 整库:对当前数据库进行整库数据同步。

  • 圈选表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作。

    批量选择:所选择当前数据库的多个表将进行实时同步。

Oracle

参数

描述

数据源配置

数据源类型

选择Oracle

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Oracle数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

时区

展示所选数据源配置的时区信息。

同步规则配置

同步方案

仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。

圈选方式

支持整库、圈选表、排除表三种方式。

  • 整库:同步所选数据源下所有数据库中的所有表。

  • 圈选表/排除表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择/排除表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作(正则匹配不支持删除操作)。

    • 批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

    • 正则匹配:可在正则表达式输入框内填写表名的正则表达式。适用Java正则表达式,如schemaA.*|schemaB.*

IBM DB2

参数

描述

数据源配置

数据源类型

选择IBM DB2

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建IBM DB2数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

同步规则配置

同步方案

仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。

圈选方式

支持整库、圈选表、排除表三种方式。

  • 整库:同步所选数据源下所有数据库中的所有表。

  • 圈选表/排除表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择/排除表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作。

    批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

Kafka

参数

描述

数据源配置

数据源类型

选择Kafka

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Kafka数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

来源topic

选择来源数据的Topic,可输入Topic名称关键字进行模糊搜索。

数据格式

当前仅支持Canal JSON格式。Canal JSONCanal的兼容格式,其数据存储格式为Canal JSON。

键类型

KafkaKey类型,决定了初始化KafkaConsumer时的key.deserializer配置,当前仅支持STRING

值类型

KafkaValue类型,决定了初始化KafkaConsumer时的value.deserializer配置,当前仅支持STRING

消费群组ID(非必填)

输入消费群组的ID。消费群组ID用于上报状态位点。

同步规则配置

表列表

输入需要同步的表名,多个表名间使用换行分隔,不超过1024个字符。

表名支持以下三种格式:tablenamedb.tablenameschema.tablename

Hive(Hudi表格式)

仅当实时引擎使用Apache Flink,且计算源为Flink on yarn部署模式时,来源端数据源支持选择Hive(Hudi数据源)。

参数

描述

数据源配置

数据源类型

选择Hive

数据源

仅可选择Hudi表格式的Hive数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Hive数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

同步规则配置

同步方案

仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。

选择表

选择需进行实时同步的单个表。

PolarDB(MySQL数据库类型)

参数

描述

数据源配置

数据源类型

选择PolarDB

数据源

仅可选择MySQL数据库类型的PolarDB数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建PolarDB数据源

重要

需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。

时区

展示所选数据源配置的时区信息。

同步规则配置

同步方案

可选择实时增量实时增量+全量,默认为实时增量

  • 实时增量:将源数据库的增量变更按照变更发生的顺序采集并写入到下游目标库中。

  • 实时增量+全量:将源数据库的全量数据一次性导入后再将增量变更按照变更发生的顺序采集并写入下游目标库中。

说明

目标数据源选择Hive(Hudi表格式)MaxComputeDatabricks时,同步方案支持选择实时增量+全量

圈选方式

支持整库、圈选表、排除表三种方式。

  • 整库:同步所选数据源下所有数据库中的所有表。

  • 圈选表/排除表:选中当前数据库中部分表进行实时同步。选中表后,您可单击预览,在选择/排除表预览对话框中查看所有匹配的表。对话框中支持按表名关键字进行搜索,并可进行单个或批量删除操作(正则匹配不支持删除操作)。

    • 批量选择/批量排除批量选择时,所选择当前数据库的多个表将进行实时同步;批量排除时,所选择当前数据库的多个表将不进行实时同步。

    • 正则匹配:可在正则表达式输入框内填写表名的正则表达式。适用Java正则表达式,如schemaA.*|schemaB.*

目标数据源

MaxCompute

参数

描述

数据源配置

数据源类型

选择MaxCompute

数据源

选择目标数据源。支持选择MaxCompute数据源与项目。您也可以单击新建,在数据源页面新建数据源。具体操作,请参见创建MaxCompute数据源

目标表新建配置

新建表类型

可选择普通表Delta,默认为普通表。

若选择Delta表,且目标表建立方式为自动建表,则会创建MaxCompute Delta表;建Delta表时,不使用附加字段。

说明

完成目标表配置后,再修改新建表类型,此时系统会发起二次确认,您若在弹出的对话框中单击确定目标表配置将被清空,后续需重新填写。

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

分区格式

新建表类型选择为普通表时,分区格式仅支持多分区;新建表类型选择为Delta时,分区格式支持选择无分区多分区

分区间隔

当分区格式选择为无分区时,不支持配置分区间隔;当分区格式选择为多分区时,分区间隔支持选择小时(hour)天(day)

说明
  • 小时(hour):为YYYY、MM、DD、HH四级分区。

  • 天(day):为YYYY、MM、DD三级分区。

MySQL

参数

描述

数据源配置

数据源类型

选择MySQL

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建MySQL数据源

时区

展示所选数据源配置的时区信息。

目标表新建配置

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

Microsoft SQL Server

参数

描述

数据源配置

数据源类型

选择Microsoft SQL Server

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Microsoft SQL Server数据源

时区

展示所选数据源配置的时区信息。

目标表新建配置

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

Oracle

参数

描述

数据源配置

数据源类型

选择Oracle

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Oracle数据源

时区

展示所选数据源配置的时区信息。

目标表新建配置

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

Kafka

参数

描述

数据源配置

数据源类型

选择Kafka

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Kafka数据源

目标Topic

目标数据的Topic,可选择TopicTopic。选择单Topic后,需选择目标Topic,可输入Topic名称关键字进行搜索;选择多Topic后,支持配置Topic名转换和Topic参数。

  • Topic:所有表消息写入同一个Topic。

  • Topic:每张表建立一个同名Topic。

数据格式

支持设置写入数据的存储格式包括DTS AvroCanal Json

  • DTS Avro:一种数据序列化格式,可以将数据结构或对象转化成便于存储或传输的格式。

  • Canal Json:对于Canal的兼容格式,数据存储格式为Canal Json。

说明

当目标Topic选择Topic时,数据格式仅支持选择Canal Json

目标topic配置

Topic名转换

单击配置Topic名转换,可在配置Topic名转换规则对话框中,配置Topic名转换规则以及Topic名称的前后缀

  • Topic名转换规则:单击新建规则,新建一行规则,您需要分别输入来源表待替换字符串目标Topic替换字符串,二者均不可为空,并且目标Topic替换字符串仅支持32个字符以内的英文字母、数字及下划线(_)。

  • Topic名称的前后缀:支持输入英文字母、数字和下划线(_),不超过32个字符。

说明
  • 替换字符Topic名称前后缀中的英文字符,系统将自动转换为小写

  • 仅当目标Topic选择Topic时,支持配置Topic名转换。

Topic参数

用于创建Topic时的附加参数,格式为key=value,多个参数间使用换行分隔。

说明

仅当目标Topic选择Topic时,支持配置此项。

DataHub

参数

描述

目标数据

数据源类型

选择DataHub

数据源

选择目标数据源。

系统提供新建数据源快捷操作入口,您可以单击新建,在数据源页面新建DataHub数据源。具体操作,请参见创建DataHub数据源

目标Topic建立方式

支持新建Topic使用已有Topic建立方式

  • 新建Topic:通过手动填写目标Topic方式进行建立。

  • 使用已有Topic:使用目标库已有Topic,需确保该Topicschema与同步消息的格式保持一致,否则会导致同步任务失败。

目标Topic

  • 目标Topic建立方式新建Topic

    您需手动填写目标Topic目标Topic仅限填写以小写字母开头,3~64个字符以内的数字、字母、下划线(_)。

    完成填写后您可单击校验,校验目标库中是否已存在所填写的Topic。

    • 填写的Topic在目标库不存在,将自动在目标库中进行创建,schema为同步消息的schema,生命周期默认为7天。

    • 填写的Topic在目标库已存在,请确保Topicschema与同步消息的schema保持一致,否则将导致任务运行失败。

  • 目标Topic建立方式使用已有Topic

    单击下拉列表选择目标库已存在的Topic。Topic较多时,您可输入Topic名称搜索所需Topic。

Databricks

参数

描述

数据源配置

数据源类型

选择Databricks

数据源

选择目标数据源。支持选择Databricks数据源与项目。您也可以单击新建,在数据源页面新建数据源。具体操作,请参见创建Databricks数据源

时区

将根据当前时区对时间格式数据进行处理,默认为所选数据源中配置的时区,不支持修改。

说明

仅当来源数据源类型为MySQLPostgreSQL,并且目标数据源类型为Databricks时,支持时区转换。

目标表新建配置

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

分区格式

支持选择无分区多分区

分区间隔

当分区格式选择为无分区时,不支持配置分区间隔;当分区格式选择为多分区时,分区间隔支持选择小时(hour)天(day)

说明
  • 小时(hour):为YYYY、MM、DD、HH四级分区。

  • 天(day):为YYYY、MM、DD三级分区。

SelectDB

参数

描述

数据源配置

数据源类型

选择SelectDB

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建SelectDB数据源

目标表新建配置

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

Hive

参数

描述

数据源配置

数据源类型

选择数据源类型为Hive

数据源

选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Hive数据源

目标表新建配置

数据湖表格式

可选择为不选择HudiIcebergPaimon

  • 不选择:按照Hive普通表写入及表创建。

  • Hudi:按照Hudi格式进行写入及表创建,仅当Hive数据源版本为CDP7.x Hive 3.1.3时,支持选择Hudi。

  • Iceberg:按照Iceberg格式进行写入及表创建,仅当Hive数据源版本为EMR5.x Hive 3.1.x时,支持选择Iceberg。

  • Paimon:按照Paimon格式进行写入及表创建,仅当Hive数据源版本为EMR5.x Hive 3.1.x时,支持选择Paimon。

说明

仅当选择的Hive数据源开启数据湖表格式配置时,支持配置此项。

Hudi表类型/Paimon表类型

Hudi表类型可选择MOR(merge on read)或COW(copy on write)。

Paimon表类型可选择MOR(merge on read)、COW(copy on write)或MOW(merge on write)。

说明

仅当数据湖表格式选择为HudiPaimon时,支持配置此项。

建表执行引擎

可选择为HiveSpark,选择数据湖表格式后,默认选择Spark。

  • Hive:使用Hive引擎进行建表,建表语法为Hive语法。

  • Spark:使用Spark引擎进行建表,建表语法为Spark语法。仅当Hive数据源开启Spark时,支持选择Spark。

    说明

    当数据湖表格式选择为Paimon时,建表执行引擎仅支持Spark。

表名转换

目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。

单击配置表名转换,打开配置表名转换规则对话框。

  • 替换字符串:单击新建规则新增一行规则,分别配置来源表待替换字符串目标表替换字符串,最多增加5规则。

  • 表名前缀/后缀不能为空,且仅支持英文字母、数字和下划线(_),长度不超过32个字符。

说明
  • 完成配置表名转换后,系统将根据表名转化规则从上到下的顺序,自动进行匹配替换。

  • 替换字符及表名前后缀中的英文字符将自动转换为小写。

分区格式

可选择单分区多分区固定分区

说明

当格式选择为单分区或固定分区时,分区字段默认名称为ds,不可修改。

分区间隔

默认选择小时(hour),可选择天(day)。单击分区间隔后的image图标,可查看分区设置详情。

  • 单分区

    • 小时(hour):展示分区列名为ds的一级分区(yyyyMMddhh)。

    • 天(day):展示分区列名为ds的一级分区(yyMMdd)。

  • 多分区

    • 小时(hour):展示yyyy、mm、dd、hh四级分区。

    • 天(day):显示yyyy、mm、dd三级分区。

说明

仅当分区格式选择为单分区多分区时,支持此配置项。

分区值

填写固定分区值,例如:20250101。

说明

仅当分区格式选择为固定分区时,支持此配置项。

映射配置

说明

目标数据源类型选择DataHub、Kafka(目标Topic为单Topic)时,不支持映射配置。

目标数据源非Kafka

image

区块

说明

查看附加字段

实时增量同步时,自动建表默认会添加附加字段以便数据使用。单击查看附加字段查看字段。在附加字段对话框中,可查看当前所附加的字段信息。

重要
  • 如选择已有表作为目标表,且表中无附加字段,建议自行为已有目标表添加附加字段,否则影响数据使用。

  • 选择数据湖表格式后,将不包含附加字段。

单击查看添加字段的DDL可查看添加附加字段的DDL语句。

说明
  • 当来源数据源类型选择为Kafka时,不支持查看附加字段。

  • 当目标表为主键表时,无需添加附加字段;当目标表为非主键表时,则需添加附加字段。

搜索与筛选区

支持按源表目标表名进行搜索。如需快速筛选目标表,单击顶部的1图标,支持按映射状态建表方式进行筛选。

添加全局字段刷新映射关系

  • 添加全局字段

    单击添加全局字段,可在添加全局字段对话框中添加全局字段。

    • 名称:全局的名称。

    • 类型:支持StringLongDoubleDateBoolean,5种数据类型。

    • :全局字段的值。

    • 描述:对字段的描述。

    说明
    • 全局和单表同时添加了字段时,仅单表添加字段生效。

    • 目前仅支持添加常量。

    • 全局字段仅对方式为自动建表的目标表生效。

    • 当来源数据源类型选择为Kafka时,不支持添加全局字段。

  • 刷新映射关系

    如需刷新目标表配置列表,请单击刷新映射关系

    重要
    • 目标表配置中已有内容时,重新选择数据源类型及数据源会导致目标表列表及映射关系情况重置,请谨慎操作。

    • 刷新过程中随时可点击再次刷新。每次点击刷新映射关系,只保存配置的全局增加字段,其他信息包括目标表建立方式、目标表名及删除记录,都不保存。

    • 当来源数据源类型选择为Kafka时,单击刷新映射关系后,系统将按照同步规则配置中的表列表进行映射,若表不存在将报错。

目标库列表

目标库列表包括序号源表映射状态目标表建立方式目标表名,同时您可以对目标表进行添加字段查看字段刷新删除的操作。

  • 映射状态

    • 完成:正常完成映射。

    • 未完成:修改状态后,未刷新映射。

    • 映射中:正在等待映射或在映射中。

    • 异常:存在数据源或系统内部错误。

    • 失败:目标分区表与实时任务设定的分区不一致。

    • 告警:来源表与目标表存可能存在不兼容的数据类型。

  • 目标表建立方式分为以下三种:

    • 若目标库中存在与来源表同名的表,则目标表建立方式为使用已有表,默认使用此表作为目标表。如需改为自动建表,需添加表名转换规则或前后缀后重新进行映射。

    • 若目标库中未找到同名表,则目标表建立方式默认为自动建表,也可更换方式为使用已有表,选择已存在的表进行同步。

    • 仅自动建表的表支持添加字段或自定义DDL建表,全局字段也仅对自动建表的表生效。

    说明
    • 当目标数据源类型选择Hive时:

      • 自动建表时,若数据湖表格式为不选择,则自动建表将创建普通Hive,反之则创建所选表格式对应的表,当前支持HudiIceberg。

      • 自定义建表时,若数据湖表格式为不选择,则使用普通Hive表的DDL,反之则需使用所选表格式对应的DDL,当前支持HudiIceberg。

    • 当来源数据源类型选择为Kafka时,目标表建立方式仅支持使用已有表

    • 当目标数据源类型选择为SelectDB时,在自动建表过程中,若来源表没有主键,则创建明细表(Duplicate表);若来源表存在主键,则创建主键表(Unique表)。更多SelectDB表类型请参见SelectDB文档

    • 当分区格式为单分区固定分区,且目标表建立方式选择使用已有表时,系统将自动校验目标表分区是否符合分区设置,若不符合则报错。

  • 目标表名目标表名仅支持英文字母、数字及下划线(_)。如果来源表名中含有其他字符,需配置表名转换规则。

    当目标数据源类型为MaxCompute时:目标表建立方式为自动建表,且新建表类型选择为Delta时,目标表名后将展示image图标,表示将新建Delta表。当目标表建立方式为使用已有表时,用户若选中目标表列表中的Delta,目标表名后也将展示image图标,表示该表为Delta表。

  • 操作

    • 自定义建表:可通过添加字段DDL方式自定义建表;开启自定义建表后,全局添加字段不再生效。

      说明
      • 添加字段后只在自动建表的操作栏里展示。

      • 不支持修改已存在的目标表,即建表方式为使用已有表的目标表。

    • 查看字段:可查看源表及目标表的字段和类型。

    • 刷新:重新进行源表和目标表的映射。

    • 删除:源表删除后不可撤销。

批量操作

您可对目标表进行批量删除操作。

目标数据源为Kafka(目标Topic为多Topic)

image

区块

说明

搜索与筛选区

支持按源表目标Topic进行搜索。如需快速筛选目标表,单击顶部的1图标,支持按映射状态目标Topic建立方式进行筛选。

刷新映射关系

如需刷新目标表配置列表,请单击刷新映射关系

重要

目标Topic配置中已有内容时,重新选择数据源类型及数据源会导致目标Topic列表及映射关系情况重置,请谨慎操作。

列表

列表包括序号源表映射状态目标Topic建立方式目标Topic,同时您可以对目标表进行删除操作。

  • 目标Topic建立方式:若目标Topic已存在,则建立方式为使用已有Topic;若目标Topic不存在,则建立方式为自动建Topic

    自动建Topic时,系统将根据已生成的目标Topic名称以及Topic参数进行建立。

  • 映射状态:仅检测目标Topic是否存在。

  • 删除:删除对应行,删除操作不可撤销。

批量操作

您可对目标表进行批量删除操作。

DDL处理策略

说明
  • 来源数据源类型选择DataHub、Kafka时,不支持DDL处理策略。

  • 目标数据源类型选择PostgreSQL、Hive(Hudi表类型)时,不支持DDL处理策略。

  • 当目标数据源类型选择Hive(Hudi表类型),且数据湖表格式选择为Hudi时,DDL处理策略均只支持忽略。

  • 当来源数据源类型选择为Kafka时,DDL处理策略均只支持忽略。

  • Hive、MaxCompute表已存在的分区添加的新增列无法被同步数据,即已存在分区中新增列的数据均为NULL,下一个新建分区正常生效可用。

  • 新建表新增列:即正常处理(包含新建表、新增列、删除列、重命名列和修改列类型),此DDL信息将继续下发给目标数据源,由目标数据源处理,不同目标数据源处理策略会不同。

  • 忽略:丢弃掉此DDL信息,不再向目标数据源发送此信息。

  • 出错:直接让实时同步任务以出错状态终止运行。

步骤三:配置实时集成任务属性

  1. 单击当前实时集成任务页签顶部菜单栏中的资源配置,或单击右侧边栏的属性,打开属性面板。

  2. 分别配置当前实时集成任务的基本信息资源配置

    • 基本信息:选择当前实时集成任务的开发负责人运维负责人,并填入当前任务的相应描述,不超过1000个字符。

    • 资源配置:详情请参见实时集成资源配置

步骤四:提交实时集成任务

  1. 单击提交,提交当前实时集成任务。

  2. 提交对话框,输入提交备注信息并单击确定并提交

  3. 完成提交后,在提交对话框中,可查看提交详情。

    如果项目的模式为Dev-Prod,则您需要发布实时集成任务至生产环境。具体操作,请参见管理发布任务

后续步骤

可在运维中心查看并运维实时集成任务,保证任务的正常运行。具体操作,请参见查看并管理实时任务