AnalyticDB PostgreSQL版同步至阿里云消息队列Kafka版-数据传输服务(DTS)-阿里云帮助中心

数据传输服务DTS（Data Transmission Service）支持AnalyticDB PostgreSQL版实例同步至阿里云消息队列Kafka版。

说明

当前功能目前正处于邀测阶段。如您有相关需求，请提交工单与我们联系，以便为您开启该功能。

适用范围

目标实例阿里云消息队列Kafka版中已创建用于接收同步数据的Topic，请参见步骤一：创建Topic。
目标实例阿里云消息队列Kafka版的存储空间须大于源实例AnalyticDB PostgreSQL版占用的存储空间。

使用须知

源库限制

类型	限制项
同步前	带宽要求：为保证同步速率，请确保源库服务器的出口带宽不低于 100 Mb/s。内核版本：源库AnalyticDB PostgreSQL版实例的内核版本须为7.2.1.4或更高。参数配置：逻辑复制：需开启逻辑复制功能，即将参数 `wal_level` 的值设置为`logical`。高可用配置：若源实例为高可用版，为防止主备切换导致同步中断，您还需将`hot_standby`、`hot_standby_feedback`和`sync_replication_slots`三个参数的值均设置为`on`。账号权限：同步账号需要具备待同步对象的读取权限以及`REPLICATION`权限。您可以使用命令`ALTER USER your_user WITH REPLICATION;`进行授权。长事务影响：在增量同步期间，源库若存在未提交的长事务，可能导致预写日志（WAL）堆积，最终占满磁盘空间。同步对象限制：命名规范：待同步的数据库名称不能包含短划线（-），例如`dts-testdata`。主键或唯一约束：待同步的表必须包含主键或唯一约束，且约束内的字段值具有唯一性，否则可能导致目标库出现重复数据。分区表：不支持同步分区表的结构。分区表同步后，库表结构同步到目标端的表会丢失分区信息，所有表默认创建为非分区表。单任务数据库数量：一个同步任务只能同步一个数据库。如需同步多个数据库，请为每个数据库单独创建同步任务。任务配置规模：如果您在任务中需要编辑（如列名映射）的表数量超过5000个，建议分批创建多个任务，或直接配置整库同步，以避免提交任务时发生请求错误。不支持的对象类型：不支持同步跨Schema继承的表、临时表、系统内部触发器、部分函数（关于PROCEDURE与FUNCTION的C语言函数和内部函数）、插件（EXTENSION）。支持的对象类型：支持同步主键、唯一约束、CHECK约束，以及部分自定义数据类型（COMPOSITE、ENUM、RANGE）。
同步期间	DDL操作限制：在在库表结构同步和全量同步阶段，请勿执行库或表结构变更的DDL操作，否则会导致数据同步任务失败。说明在全量同步阶段，DTS将对源库进行查询，这将产生元数据锁，从而可能阻碍源数据库的DDL操作执行。 DDL同步支持：暂不支持同步源库的DDL操作。在DTS任务启动后，源端新建的表及其后续的数据变更将不会同步到目标端。如有需要，请新建同步链路。连接信息变更：任务运行期间，请勿修改AnalyticDB PostgreSQL版实例的连接地址或可用区，否则会导致同步任务失败。

目标库限制

类型	限制项
同步前	性能影响评估：全量同步会占用源库和目标库一定的读写资源，可能增加数据库负载。建议您在业务低峰期（如CPU负载低于30%）执行同步任务。单条消息大小：Kafka对单条消息的大小限制为10 MB。若源数据库中的单行数据经过转换后超过此限制，将导致任务中断。因此，在配置任务时，需过滤掉包含超大字段的列。如果任务已在同步中，则需修改同步对象，将该表移除后，再次点击修改同步对象，将该表重新加入，并过滤该表中的大字段列，以避免同步。
同步期间	目标库扩缩容：任务运行期间，如果目标Kafka集群发生扩缩容（如增减Broker节点），您需要重启DTS同步任务才能使变更生效。外部数据写入：为保证数据一致性，请勿在同步期间向目标Kafka集群写入DTS任务之外的数据，这可能导致数据不一致或任务失败。存储空间增长：全量同步时，DTS会并发执行写入操作，可能导致目标端数据产生碎片。因此，同步完成后，目标端的存储占用可能会大于源端。任务重启行为：对于同时包含全量和增量同步的任务，重启后可能会重新执行全量同步阶段。实例运行失败：恢复机制： DTS技术支持人员将在8小时内尝试恢复该实例。在恢复过程中，可能会重启实例或调整DTS任务参数（不会对您数据库中的参数进行修改）。数据覆盖风险：为避免自动恢复导致目标库数据被意外覆盖，请在业务正式切换到目标库后，及时停止或释放不再需要的同步任务。
支持的同步SQL	`INSERT`、`UPDATE`、`DELETE`。
支持同步的对象	基础对象： `SCHEMA`、`TABLE` 说明包含`PRIMARY KEY`、`UNIQUE KEY`、`DATATYPE`（内置数据类型）和`DEFAULT CONSTRAINT`。其他对象： `VIEW`、`INDEX`、`PROCEDURE`、`FUNCTION`、`RULE`、`SEQUENCE`、`AGGREGATE`、`OPERATOR`、`DOMAIN`。

费用说明

同步类型	链路配置费用
库表结构同步和全量同步	不收费。
增量同步	收费，详情请参见计费概述。

操作步骤

进入目标地域的同步任务列表页面（二选一）。
通过DTS控制台进入
1. 登录数据传输服务DTS控制台。
2. 在左侧导航栏，单击数据同步。
3. 在页面左上角，选择同步实例所属地域。
通过DMS控制台进入
说明
实际操作可能会因DMS的模式和布局不同，而有所差异。更多信息，请参见极简模式控制台和自定义DMS界面布局与样式。
1. 登录DMS数据管理服务。
2. 在顶部菜单栏中，选择Data + AI > 数据传输（DTS） > 数据同步。
3. 在同步任务右侧，选择同步实例所属地域。
单击创建任务，进入任务配置页面。

配置源库及目标库信息。

类别	配置	说明
无	任务名称	DTS会自动生成一个任务名称，建议配置具有业务意义的名称（无唯一性要求），便于后续识别。
源库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择AnalyticDB PostgreSQL。
	接入方式	选择云实例。
	实例地区	选择源AnalyticDB PostgreSQL版实例所属地域。
	是否跨阿里云账号	本示例为同一阿里云账号间的同步，选择不跨账号。
	实例ID	选择源AnalyticDB PostgreSQL版实例ID。
	数据库名称	填入源AnalyticDB PostgreSQL版实例中待同步数据所属数据库的名称。
	数据库账号	填入源AnalyticDB PostgreSQL版实例的数据库账号，需具备待同步对象的读权限。
	数据库密码	填入该数据库账号对应的密码。
目标库信息	选择已有连接信息	若您需要使用已录入系统（新建或保存）的数据库实例，请在下拉列表中选择所需的数据库实例，下方的数据库信息将自动进行配置。说明 DMS控制台的配置项为选择DMS数据库实例。若您未将数据库实例录入到系统，或无需使用已录入系统的数据库实例，则需要手动配置下方的数据库信息。
	数据库类型	选择Kafka。
	接入方式	选择云实例。
	实例地区	选择目标阿里云消息队列Kafka版实例所属地域。
	Kafka实例ID	选择目标阿里云消息队列Kafka版实例的ID。
	连接方式	根据业务及安全需求，选择非加密连接或SCRAM-SHA-256。
	Topic	在下拉框中选择接收数据的Topic。
	是否使用Kafka Schema Registry	Kafka Schema Registry是元数据提供服务层，提供了一个RESTful接口，用于存储和检索Avro Schema。否：不使用Kafka Schema Registry。是：使用Kafka Schema Registry。您需要输入Avro Schema在Kafka Schema Registry注册的URL或IP。

配置完成后，在页面下方单击测试连接以进行下一步。
说明
- 请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中，以允许DTS服务器的访问。更多信息，请参见添加DTS服务器IP地址白名单。
- 若源库或目标库为自建数据库（接入方式不是云实例），则还需要在弹出的DTS服务器访问授权对话框单击测试连接。

配置任务对象。

在对象配置页面，配置待同步的对象。

配置

说明

同步类型

固定选中增量同步。默认情况下，您还需要同时选中库表结构同步和全量同步。预检查完成后，DTS会将源实例中待同步对象的全量数据在目标集群中初始化，作为后续增量同步数据的基线数据。

说明

目标Kafka实例的接入方式为云实例时，不支持库表结构同步。

目标已存在表的处理模式

预检查并报错拦截：检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表，则通过该检查项目；如果目标数据库中有同名的表，则在预检查阶段提示错误，数据同步任务不会被启动。
说明
如果目标库中同名的表不方便删除或重命名，您可以更改该表在目标库中的名称，请参见库表列名映射。
忽略报错并继续执行：跳过目标数据库中是否有同名表的检查项。
警告
选择为忽略报错并继续执行，可能导致数据不一致，给业务带来风险，例如：
- 表结构一致的情况下，如在目标库遇到与源库主键或唯一键的值相同的记录：
  - 全量期间，DTS会保留目标集群中的该条记录，即源库中的该条记录不会同步至目标数据库中。
  - 增量期间，DTS不会保留目标集群中的该条记录，即源库中的该条记录会覆盖至目标数据库中。
- 表结构不一致的情况下，可能会导致无法初始化数据、只能同步部分列的数据或同步失败，请谨慎操作。

投递到Kafka的数据格式

根据需求选择同步到Kafka实例中的数据存储格式。

如果您选择DTS Avro，需要根据DTS Avro的Schema定义进行数据解析，详情请参见DTS Avro的Schema定义和DTS Avro的反序列化示例。
如果您选择Canal JSON，Canal Json的参数说明和示例请参见Canal Json说明。

Kafka压缩格式

根据需求选择Kafka压缩消息的压缩格式。

LZ4（默认）：压缩率较低，压缩速率较高。
GZIP：压缩率较高，压缩速率较低。
说明
对CPU的消耗较高。
Snappy：压缩率中等，压缩速率中等。

投递到Kafka Partition策略

根据业务需求选择策略。

消息确认机制

根据业务需求选择消息确认机制。

存储DDL的Topic

在下拉框中选择用于存储DDL信息的Topic。

说明

若未选择，DDL信息默认存储在接收数据的Topic中。

目标库对象名称大小写策略

您可以配置目标实例中同步对象的库名、表名和列名的英文大小写策略。默认情况下选择DTS默认策略，您也可以选择与源库、目标库默认策略保持一致。更多信息，请参见目标库对象名称大小写策略。

源库对象

在源库对象框中单击待同步对象，然后单击将其移动至已选择对象框。

说明

同步对象的选择粒度为表。

已选择对象

本示例无需额外配置。您可以使用映射功能，设置源表在目标Kafka实例中的Topic名称、Topic的Partition数量或列名等信息。

单击展开查看如何配置目标Kafka实例中的对象信息

在已选择对象区域框中，将鼠标指针放置在目标Topic名（表级别）上。
单击目标Topic名后出现的编辑。

在弹出的编辑表对话框中，配置映射信息。

说明

库级别是编辑Schema对话框，且支持配置的参数少；表级别是编辑表对话框。
若同步对象的粒度不是整库，则不支持修改编辑Schema对话框的目标库名（目标Topic名称）和设置新建Topic的Partition数量。

配置	说明
目标Topic名称	源表同步到的目标Topic名称，默认为源库及目标库配置阶段在目标库信息选择的Topic。重要目标库为阿里云消息队列Kafka版实例时，填写的Topic名称必须在目标Kafka实例中真实存在，否则将会导致数据同步失败。目标库为自建Kafka数据库，且同步实例包含库表结构任务时，DTS会尝试在目标库中创建您填写的Topic。若您修改了目标Topic名称，数据将会被写入到您填写的Topic中。
过滤条件	详情请参见设置过滤条件。
设置新建Topic的Partition数量	数据写入到目标Topic时的分区数。
列	编辑数据写入到目标Topic时的列名。

说明

如需按库或表级别选择同步的SQL操作，请在已选择对象中右击待同步对象，并在弹出的对话框中选择所需同步的SQL操作。
如果使用了对象名映射功能，可能会导致依赖这个对象的其他对象同步失败。

单击下一步高级配置，进行高级参数配置。

配置	说明
选择调度该任务的专属集群	DTS默认将任务调度到共享集群上，您无需选择。若您希望任务更加稳定，可以购买专属集群来运行DTS同步任务。更多信息，请参见什么是DTS专属集群。
是否开启数据传输加密	开启加密传输后，可能会影响DTS同步性能，请根据实际生产和安全要求按需选择开启。否（默认）是
源库、目标库无法连接后的重试时间	在同步任务启动后，若源库或目标库连接失败则DTS会报错，并会立即进行持续的重试连接，默认持续重试时间为720分钟，您也可以在取值范围（10~1440分钟）内自定义重试时间，建议设置30分钟以上。如果DTS在设置的重试时间内重新连接上源库、目标库，同步任务将自动恢复。否则，同步任务将会失败。说明针对同源或者同目标的多个DTS实例，如DTS实例A和DTS实例B，设置网络重试时间时A设置30分钟，B设置60分钟，则重试时间以低的30分钟为准。由于连接重试期间，DTS将收取任务运行费用，建议您根据业务需要自定义重试时间，或者在源和目标库实例释放后尽快释放DTS实例。
源库、目标库出现其他问题后的重试时间	在同步任务启动后，若源库或目标库出现非连接性的其他问题（如DDL或DML执行异常），则DTS会报错并会立即进行持续的重试操作，默认持续重试时间为10分钟，您也可以在取值范围（1~1440分钟）内自定义重试时间，建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功，同步任务将自动恢复。否则，同步任务将会失败。重要源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。
是否限制全量同步速率	在全量同步阶段，DTS将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升。您可以根据实际情况，选择是否对全量同步任务进行限速设置（设置每秒查询源库的速率QPS、每秒全量迁移的行数RPS和每秒全量迁移的数据量(MB)BPS），以缓解目标库的压力。说明仅当同步类型选择了全量同步，才有此配置项。您也可以在同步实例运行后，调整全量同步的速率。
是否限制增量同步速率	您也可以根据实际情况，选择是否对增量同步任务进行限速设置（设置每秒增量同步的行数RPS和每秒增量同步的数据量(MB)BPS），以缓解目标库的压力。
环境标签	您可以根据实际情况，选择用于标识实例的环境标签。本示例无需选择。
场景标签	您可以根据实际情况，选择用于标识实例的使用场景标签。场景标签不会对任务正常运行有任何影响。本示例无需选择。
配置ETL功能	选择是否配置ETL功能。关于ETL的更多信息，请参见什么是ETL。是：配置ETL功能，并在文本框中填写数据处理语句，详情请参见在DTS迁移或同步任务中配置ETL。否：不配置ETL功能。
监控告警	是否设置告警，当同步失败或延迟超过阈值后，将通知告警联系人。不设置：不设置告警。设置：设置告警，您还需要设置告警阈值和告警联系人。更多信息，请参见在配置任务过程中配置监控告警。

保存任务并进行预检查。
- 若您需要查看调用API接口配置该实例时的参数信息，请将鼠标光标移动至下一步保存任务并预检查按钮上，然后单击气泡中的预览OpenAPI参数。
- 若您无需查看或已完成查看API参数，请单击页面下方的下一步保存任务并预检查。
说明
- 在同步作业正式启动之前，会先进行预检查。只有预检查通过后，才能成功启动同步作业。
- 如果预检查失败，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
- 如果预检查产生警告：
  对于不可以忽略的检查项，请单击失败检查项后的查看详情，并根据提示修复后重新进行预检查。
  对于可以忽略无需修复的检查项，您可以依次单击点击确认告警详情、确认屏蔽、确定、重新进行预检查，跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项，可能会导致数据不一致等问题，给业务带来风险。

购买实例。

预检查通过率显示为100%时，单击下一步购买。

在购买页面，选择数据同步实例的计费方式、链路规格，详细说明请参见下表。

类别	参数	说明
信息配置	计费方式	预付费（包年包月）：在新建实例时支付费用。适合长期需求，价格比按量付费更实惠，且购买时长越长，折扣越多。后付费（按量付费）：按小时扣费。适合短期需求，用完可立即释放实例，节省费用。
	资源组配置	实例所属的资源组，默认为default resource group。更多信息，请参见什么是资源管理。
	链路规格	DTS为您提供了不同性能的同步规格，同步链路规格的不同会影响同步速率，您可以根据业务场景进行选择。更多信息，请参见数据同步链路规格说明。
	订购时长	在预付费模式下，选择包年包月实例的时长和数量，包月可选择1~9个月，包年可选择1年、2年、3年和5年。说明该选项仅在付费类型为预付费时出现。

配置完成后，阅读并勾选《数据传输（按量付费）服务条款》。
单击购买并启动，并在弹出的确认对话框，单击确定。
您可在数据同步界面查看具体任务进度。

常见问题

是否支持修改Kafka压缩格式？
支持，您可以使用修改同步对象功能进行修改。
是否支持修改消息确认机制？
支持，您可以使用修改同步对象功能进行修改。