实时集成数据至Kafka_智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

将MySQL、Microsoft SQL Server、Oracle、PostgreSQL、IBM DB2的数据实时同步至Kafka，可以通过创建实时集成任务实现。本文为您介绍如何创建实时集成任务。

前提条件

需创建实时集成任务所需的数据源（MySQL、Microsoft SQL Server、Oracle、PostgreSQL、IBM DB2），以便在配置实时集成任务过程中，选择对应的来源数据和目标数据。具体操作，请参见实时集成支持的数据源。

步骤一：新建实时集成任务

在Dataphin首页的顶部菜单栏中，选择研发 > 数据集成。
在顶部菜单栏中选择项目（Dev-Prod模式还需要选择环境）。
在左侧导航栏中选择集成 > 实时集成，在右侧实时集成列表中单击图标，选择实时集成任务。

在新建实时集成任务对话框中，填写任务名称、描述并选择目录。

参数	描述
任务名称	填写实时任务名称。以字母开头，仅包含小写英文字母、数字、下划线（_），长度限制为4~63个字符。
描述	填写任务的简单描述信息，长度不超过1000个字符。
选择目录	选择实时任务所存放的目录。若未创建目录，您可以新建文件夹，操作方法如下：在页面左侧实时任务列表上方单击图标，打开新建文件夹对话框。在新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。单击确定。

配置完成后，单击确定。

在新建的实时集成任务中，配置来源数据与目标数据。

分区	参数	描述
来源数据	数据源类型	选择数据源类型。支持MySQL、Microsoft SQL Server、Oracle、PostgreSQL、IBM DB2。
	数据源	选择数据源。系统提供新建数据源入口，您可以单击新建，在数据源页面新建数据源。具体操作，请参见实时集成支持的数据源。重要需在数据源端开启日志，并需确保配置的账户有读取日志权限，否则系统无法实时同步该数据源。
	同步方案	默认实时增量。说明将源数据库的增量变更按照变更发生的顺序采集并写入到下游目标库中。
	圈选方式	支持整库、圈选表、排除表三种方式。整库：对当前数据库进行整库数据同步。仅当来源数据源类型选择MySQL时，将同步所选数据源下所有数据库中的所有表。圈选表/排除表：选中当前数据库中部分表进行实时同步。批量选择/批量排除：批量选择时，所选择当前数据库的多个表将进行实时同步；批量排除时，所选择当前数据库的多个表将不进行实时同步。当来源数据源类型选择MySQL时，支持选择所选数据源下所有数据库中的所有表，列表中以`DBname.Tablename`格式展示各表。当来源数据源类型选择PostgreSQL时，不支持排除表方式。正则匹配：可在正则表达式输入框内填写表名的正则表达式。适用Java正则表达式，如`schemaA.\|schemaB.`。仅当来源数据源类型选择MySQL时，支持批量匹配所选数据源下所有数据库中的所有表，可使用数据库名（DBname）和表名（Tablename）进行正则匹配。当来源数据源类型选择PostgreSQL、Microsoft SQL Server或IBM DB2时，不支持正则匹配。
目标数据	数据源类型	选择Kafka数据源类型。
	数据源	选择目标数据源。系统提供新建数据源入口，您可以单击新建，在数据源页面新建数据源。具体操作，请参见创建Kafka数据源。
	目标Topic	目标数据的Topic。单击下拉列表，可以选择目标Topic。
	数据格式	支持设置写入数据的存储格式。包括DTS Avro和Canal Json。 DTS Avro：一种数据序列化格式，可以将数据结构或对象转化成便于存储或传输的格式。 Canal Json：对于Canal的兼容格式，数据存储格式为Canal Json。

配置完成后，单击保存。

步骤二：配置实时任务属性

单击当前实时集成任务页签顶部菜单栏中的资源配置，或单击右侧边栏的属性，打开属性面板。
分别配置当前实时集成任务的基本信息和资源配置。
- 基本信息：选择当前实时集成任务的开发负责人和运维负责人，并填入当前任务的相应描述，不超过1000个字符。
- 资源配置：详情请参见实时集成资源配置。

步骤三：提交实时集成任务

单击提交，提交当前实时集成任务。
在提交对话框，输入提交备注信息并单击确定并提交。
完成提交后，在提交对话框中，可查看提交详情。
如果项目的模式为Dev-Prod，则您需要发布实时集成任务至生产环境。具体操作，请参见管理发布任务。

后续步骤

提交或发布任务至生产环境后，您可在运维中心查看并运维实时集成任务，保证任务的正常运行。具体操作，请参见查看并管理实时任务。