实时集成支持多种来源端数据源汇聚组合至目标端数据源,形成实时同步链路进行数据同步。本文为您介绍如何创建实时集成任务。
前提条件
已完成数据源配置。您需要在配置实时集成任务前,配置好您需要集成的数据源,以便在配置实时集成任务过程中,选择对应的来源数据和目标数据。具体操作,请参见实时集成支持的数据源。
背景信息
目标数据源类型选择Oracle或MySQL时,将采用JDBC协议,不同的消息将采用以下处理策略。
结果表不存在主键时。
接收到INSERT消息时,将直接进行Append写入。
接收到UPDATE_BEFORE消息时,将会被直接丢弃,不做处理;接收UPDATE_AFTER消息时,将直接进行Append写入。
接收到DELETE消息时,将会被直接丢弃,不做处理。
结果表存在主键时。
接收到INSERT消息时,将作为UPSERT消息进行处理。
接收到UPDATE_BEFORE消息时,将会被直接丢弃,不做处理;接收UPDATE_AFTER消息时,将作为UPSERT消息进行处理。
接收到DELETE消息时,将作为DELETE消息进行处理。
因JDBC协议为立即写,当任务Failover的情况下且结果表没有主键时,可能存在重复数据,不支持Exactly-Once保证。
因JDBC协议仅支持建表DDL和加字段DDL,其他类型的DDL消息将会被直接丢弃。
Oracle目前仅支持基本数据类型,不支持INTERVAL YEAR、INTERVAL DAY、BFILE、SYS.ANY、XML、地图类型、ROWID、UROWID数据类型。
MySQL目前仅支持基本数据类型,不支持地图类型。
为避免乱序导致的数据不一致情况,仅支持单并发。
Oracle数据源支持Oracle Database 11g、Oracle Database 19c、Oracle Database 21c版本。
MySQL数据源支持MySQL8.0、MySQL8.4和MySQL5.7版本。
步骤一:新建实时集成任务
在Dataphin首页的顶部菜单栏中,选择研发 > 数据集成。
在顶部菜单栏中选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中,选择集成 > 实时集成。
单击实时集成列表中的
图标,选择实时集成任务,打开新建实时集成任务对话框。在新建实时集成任务对话框中,配置以下参数。
参数
描述
任务名称
填写实时任务名称。
以字母开头,仅包含小写英文字母、数字、下划线(_),长度限制为4~63个字符。
生产/开发环境队列资源
可选择所有配置为实时任务的资源组。
说明仅当项目所使用的计算源是部署模式为Kubernetes的Flink计算源时,支持此配置项。
描述
填写任务的简单描述信息,长度不超过1000个字符。
选择目录
选择实时任务所存放的目录。
若未创建目录,您可以新建文件夹,操作方法如下:
在页面左侧实时任务列表上方单击
图标,打开新建文件夹对话框。在新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。
单击确定。
配置完成后,单击确定。
步骤二:配置实时集成任务
不同实时计算引擎支持的来源和目标数据源不同,详情请参见实时集成支持的数据源。
来源数据源
MySQL
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择MySQL。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建MySQL数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
同步规则配置 | 同步方案 | 可选择实时增量或实时增量+全量,默认为实时增量。
说明 当目标数据源选择Hive(Hudi表格式)、MaxCompute或Databricks时,同步方案支持选择实时增量+全量。 |
圈选方式 | 支持整库、圈选表、排除表三种方式。
| |
Microsoft SQL Server
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Microsoft SQL Server。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Microsoft SQL Server数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
同步规则配置 | 同步方案 | 仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。 |
圈选方式 | 支持整库、圈选表、排除表三种方式。
| |
PostgreSQL
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择PostgreSQL。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建PostgreSQL数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
同步规则配置 | 同步方案 | 仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。 |
圈选方式 | 支持整库和圈选表两种方式。
| |
Oracle
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Oracle。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Oracle数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
同步规则配置 | 同步方案 | 仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。 |
圈选方式 | 支持整库、圈选表、排除表三种方式。
| |
IBM DB2
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择IBM DB2。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建IBM DB2数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
同步规则配置 | 同步方案 | 仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。 |
圈选方式 | 支持整库、圈选表、排除表三种方式。
| |
Kafka
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Kafka。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Kafka数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
来源topic | 选择来源数据的Topic,可输入Topic名称关键字进行模糊搜索。 | |
数据格式 | 当前仅支持Canal JSON格式。Canal JSON是Canal的兼容格式,其数据存储格式为Canal JSON。 | |
键类型 | Kafka的Key类型,决定了初始化KafkaConsumer时的key.deserializer配置,当前仅支持STRING。 | |
值类型 | Kafka的Value类型,决定了初始化KafkaConsumer时的value.deserializer配置,当前仅支持STRING。 | |
消费群组ID(非必填) | 输入消费群组的ID。消费群组ID用于上报状态位点。 | |
同步规则配置 | 表列表 | 输入需要同步的表名,多个表名间使用换行分隔,不超过1024个字符。 表名支持以下三种格式: |
Hive(Hudi表格式)
仅当实时引擎使用Apache Flink,且计算源为Flink on yarn部署模式时,来源端数据源支持选择Hive(Hudi数据源)。
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Hive。 |
数据源 | 仅可选择Hudi表格式的Hive数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Hive数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
同步规则配置 | 同步方案 | 仅支持实时增量。将源数据库的增量变更按照变更发生的顺序采集并实时写入下游目标库中。 |
选择表 | 选择需进行实时同步的单个表。 | |
PolarDB(MySQL数据库类型)
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择PolarDB。 |
数据源 | 仅可选择MySQL数据库类型的PolarDB数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建PolarDB数据源。 重要 需在数据源端开启日志,并需确保配置的账户有读取日志权限,否则系统无法实时同步该数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
同步规则配置 | 同步方案 | 可选择实时增量或实时增量+全量,默认为实时增量。
说明 当目标数据源选择Hive(Hudi表格式)、MaxCompute或Databricks时,同步方案支持选择实时增量+全量。 |
圈选方式 | 支持整库、圈选表、排除表三种方式。
| |
目标数据源
MaxCompute
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择MaxCompute。 |
数据源 | 选择目标数据源。支持选择MaxCompute数据源与项目。您也可以单击新建,在数据源页面新建数据源。具体操作,请参见创建MaxCompute数据源。 | |
目标表新建配置 | 新建表类型 | 可选择普通表或Delta表,默认为普通表。 若选择Delta表,且目标表建立方式为自动建表,则会创建MaxCompute Delta表;建Delta表时,不使用附加字段。 说明 完成目标表配置后,再修改新建表类型,此时系统会发起二次确认,您若在弹出的对话框中单击确定,目标表配置将被清空,后续需重新填写。 |
表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
| |
分区格式 | 新建表类型选择为普通表时,分区格式仅支持多分区;新建表类型选择为Delta表时,分区格式支持选择无分区或多分区。 | |
分区间隔 | 当分区格式选择为无分区时,不支持配置分区间隔;当分区格式选择为多分区时,分区间隔支持选择小时(hour)或天(day)。 说明
| |
MySQL
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择MySQL。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建MySQL数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
目标表新建配置 | 表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
|
Microsoft SQL Server
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Microsoft SQL Server。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Microsoft SQL Server数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
目标表新建配置 | 表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
|
Oracle
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Oracle。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Oracle数据源。 | |
时区 | 展示所选数据源配置的时区信息。 | |
目标表新建配置 | 表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
|
Kafka
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Kafka。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Kafka数据源。 | |
目标Topic | 目标数据的Topic,可选择单Topic或多Topic。选择单Topic后,需选择目标Topic,可输入Topic名称关键字进行搜索;选择多Topic后,支持配置Topic名转换和Topic参数。
| |
数据格式 | 支持设置写入数据的存储格式,包括DTS Avro和Canal Json。
说明 当目标Topic选择多Topic时,数据格式仅支持选择Canal Json。 | |
目标topic配置 | Topic名转换 | 单击配置Topic名转换,可在配置Topic名转换规则对话框中,配置Topic名转换规则以及Topic名称的前后缀。
说明
|
Topic参数 | 用于创建Topic时的附加参数,格式为 说明 仅当目标Topic选择多Topic时,支持配置此项。 | |
DataHub
参数 | 描述 | |
目标数据 | 数据源类型 | 选择DataHub。 |
数据源 | 选择目标数据源。 系统提供新建数据源快捷操作入口,您可以单击新建,在数据源页面新建DataHub数据源。具体操作,请参见创建DataHub数据源。 | |
目标Topic建立方式 | 支持新建Topic和使用已有Topic建立方式。
| |
目标Topic |
| |
Databricks
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择Databricks。 |
数据源 | 选择目标数据源。支持选择Databricks数据源与项目。您也可以单击新建,在数据源页面新建数据源。具体操作,请参见创建Databricks数据源。 | |
时区 | 将根据当前时区对时间格式数据进行处理,默认为所选数据源中配置的时区,不支持修改。 说明 仅当来源数据源类型为MySQL或PostgreSQL,并且目标数据源类型为Databricks时,支持时区转换。 | |
目标表新建配置 | 表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
|
分区格式 | 支持选择无分区或多分区。 | |
分区间隔 | 当分区格式选择为无分区时,不支持配置分区间隔;当分区格式选择为多分区时,分区间隔支持选择小时(hour)或天(day)。 说明
| |
SelectDB
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择SelectDB。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建SelectDB数据源。 | |
目标表新建配置 | 表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
|
Hive
参数 | 描述 | |
数据源配置 | 数据源类型 | 选择数据源类型为Hive。 |
数据源 | 选择数据源。您也可以单击新建,在数据源页面新建数据源,详情请参见创建Hive数据源。 | |
目标表新建配置 | 数据湖表格式 | 可选择为不选择、Hudi、Iceberg或Paimon。
说明 仅当选择的Hive数据源开启了数据湖表格式配置时,支持配置此项。 |
Hudi表类型/Paimon表类型 | Hudi表类型可选择MOR(merge on read)或COW(copy on write)。 Paimon表类型可选择MOR(merge on read)、COW(copy on write)或MOW(merge on write)。 说明 仅当数据湖表格式选择为Hudi或Paimon时,支持配置此项。 | |
建表执行引擎 | 可选择为Hive或Spark,选择数据湖表格式后,默认选择Spark。
| |
表名转换 | 目标表名仅支持英文字母、数字及下划线(_),若来源表名含有其他字符,需配置表名转换规则。 单击配置表名转换,打开配置表名转换规则对话框。
说明
| |
分区格式 | 可选择单分区、多分区或固定分区。 说明 当格式选择为单分区或固定分区时,分区字段默认名称为 | |
分区间隔 | 默认选择小时(hour),可选择天(day)。单击分区间隔后的
说明 仅当分区格式选择为单分区或多分区时,支持此配置项。 | |
分区值 | 填写固定分区值,例如:20250101。 说明 仅当分区格式选择为固定分区时,支持此配置项。 | |
映射配置
目标数据源类型选择DataHub、Kafka(目标Topic为单Topic)时,不支持映射配置。
目标数据源非Kafka

区块 | 说明 |
①查看附加字段 | 实时增量同步时,自动建表默认会添加附加字段以便数据使用。单击查看附加字段查看字段。在附加字段对话框中,可查看当前所附加的字段信息。 重要
单击查看添加字段的DDL可查看添加附加字段的DDL语句。 说明
|
②搜索与筛选区 | 支持按源表和目标表名进行搜索。如需快速筛选目标表,单击顶部的 |
③添加全局字段、刷新映射关系 |
|
④目标库列表 | 目标库列表包括序号、源表、映射状态、目标表建立方式、目标表名,同时您可以对目标表进行添加字段、查看字段、刷新、删除的操作。
|
⑤批量操作 | 您可对目标表进行批量删除操作。 |
目标数据源为Kafka(目标Topic为多Topic)

区块 | 说明 |
①搜索与筛选区 | 支持按源表和目标Topic名进行搜索。如需快速筛选目标表,单击顶部的 |
②刷新映射关系 | 如需刷新目标表配置列表,请单击刷新映射关系。 重要 目标Topic配置中已有内容时,重新选择数据源类型及数据源会导致目标Topic列表及映射关系情况重置,请谨慎操作。 |
③列表 | 列表包括序号、源表、映射状态、目标Topic建立方式、目标Topic名,同时您可以对目标表进行删除操作。
|
④批量操作 | 您可对目标表进行批量删除操作。 |
DDL处理策略
来源数据源类型选择DataHub、Kafka时,不支持DDL处理策略。
目标数据源类型选择PostgreSQL、Hive(Hudi表类型)时,不支持DDL处理策略。
当目标数据源类型选择Hive(Hudi表类型),且数据湖表格式选择为Hudi时,DDL处理策略均只支持忽略。
当来源数据源类型选择为Kafka时,DDL处理策略均只支持忽略。
对Hive、MaxCompute表已存在的分区添加的新增列无法被同步数据,即已存在分区中新增列的数据均为NULL,下一个新建分区正常生效可用。
新建表、新增列等:即正常处理(包含新建表、新增列、删除列、重命名列和修改列类型),此DDL信息将继续下发给目标数据源,由目标数据源处理,不同目标数据源处理策略会不同。
忽略:丢弃掉此DDL信息,不再向目标数据源发送此信息。
出错:直接让实时同步任务以出错状态终止运行。
步骤三:配置实时集成任务属性
单击当前实时集成任务页签顶部菜单栏中的资源配置,或单击右侧边栏的属性,打开属性面板。
分别配置当前实时集成任务的基本信息和资源配置。
基本信息:选择当前实时集成任务的开发负责人和运维负责人,并填入当前任务的相应描述,不超过1000个字符。
资源配置:详情请参见实时集成资源配置。
步骤四:提交实时集成任务
单击提交,提交当前实时集成任务。
在提交对话框,输入提交备注信息并单击确定并提交。
完成提交后,在提交对话框中,可查看提交详情。
如果项目的模式为Dev-Prod,则您需要发布实时集成任务至生产环境。具体操作,请参见管理发布任务。
后续步骤
可在运维中心查看并运维实时集成任务,保证任务的正常运行。具体操作,请参见查看并管理实时任务。