AI数据准备功能支持将MySQL数据库的数据传输到AnalyticDB PostgreSQL版实例。本文以源库为RDS MySQL实例为例,为您介绍操作步骤。
此功能正在邀测中,仅部分用户可以使用。您可以通过功能交流钉钉群(群号:79690034672)或DTS数据准备功能试用申请表单,获取体验资格。
前提条件
已创建存储空间大于源RDS MySQL实例已占用存储空间的目标AnalyticDB PostgreSQL版实例。
说明引擎版本需选择7.0 标准版、节点规格(segment)需选择4C16G及以上规格、AI节点开关需选择开启、AI节点数量至少为1个。
创建方法,请参见创建实例。
目标AnalyticDB PostgreSQL版实例已开启向量检索引擎优化。
已在目标AnalyticDB PostgreSQL版实例中创建用于接收数据的数据库、Schema、具有主键的表。更多信息,请参见SQL语法和数据类型映射关系。
说明建议目标AnalyticDB PostgreSQL版实例中的表名和列名与源库中的一致。
注意事项
类型 | 说明 |
源库限制 |
|
其他限制 |
|
费用说明
暂不收费。
支持的SQL操作
操作类型 | SQL操作语句 |
DML | INSERT、UPDATE、DELETE |
数据库账号的权限要求
数据库 | 所需权限 | 账号创建及授权方法 |
源RDS MySQL实例 | 待传输数据的读写权限。 | |
目标AnalyticDB PostgreSQL版实例 | 目标库的读写权限。 | 说明 您可以使用初始账号或具备RDS_SUPERUSER权限的账号。 |
若您使用的源库账号不是通过RDS MySQL控制台创建且授权,您需确保该账号具备REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW和SELECT权限。
操作步骤
进入目标地域的数据准备任务列表页面。
登录数据传输服务DTS控制台。
在左侧导航栏,单击数据准备。
在页面左上角,选择数据准备实例所属地域。
可选:单击数据准备任务页签。
单击创建任务,进入任务配置页面。
配置源库及目标库信息。
类别
配置
说明
无
任务名称
DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。
源库信息
选择已有连接信息
若您需要使用已录入系统(新建或保存)的数据库实例,请在下拉列表中选择所需的数据库实例,下方的数据库信息将自动进行配置。
若您未将数据库实例录入到系统,或无需使用已录入系统的数据库实例,则需要手动配置下方的数据库信息。
数据库类型
选择MySQL。
接入方式
选择云实例。
实例地区
选择源RDS MySQL实例所属地域。
是否跨阿里云账号
本示例使用当前阿里云账号下的数据库实例,需选择不跨账号。
RDS实例ID
选择源RDS MySQL实例ID。
数据库账号
填入源RDS MySQL实例的数据库账号。权限要求,请参见数据库账号的权限要求。
数据库密码
填入该数据库账号对应的密码。
连接方式
根据数据库实际情况选择非加密连接或SSL安全连接。
说明RDS MySQL实例的SSL加密功能,请参见使用云端证书快速开启SSL链路加密。
目标库信息
选择已有连接信息
若您需要使用已录入系统(新建或保存)的数据库实例,请在下拉列表中选择所需的数据库实例,下方的数据库信息将自动进行配置。
若您未将数据库实例录入到系统,或无需使用已录入系统的数据库实例,则需要手动配置下方的数据库信息。
数据库类型
选择AnalyticDB PostgreSQL。
接入方式
选择云实例。
实例地区
选择目标AnalyticDB PostgreSQL版实例所属的地域。
实例ID
选择目标AnalyticDB PostgreSQL版实例的名ID。
数据库名称
填入目标AnalyticDB PostgreSQL版实例中用于接收数据的数据库名称。
数据库账号
填入目标AnalyticDB PostgreSQL版实例的数据库账号。权限要求,请参见数据库账号的权限要求。
数据库密码
填入该数据库账号对应的密码。
配置完成后,在页面下方单击测试连接以进行下一步。
说明请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中,以允许DTS服务器的访问。更多信息,请参见添加DTS服务器的IP地址段。
若源库或目标库为自建数据库(接入方式不是云实例),则还需要在弹出的DTS服务器访问授权对话框单击测试连接。
配置任务对象。
在对象配置区域,配置待传输的对象。
配置
说明
任务步骤
选择增量同步,暂不支持全量同步。
实例级别选择所需同步的DDL和DML
您可以按实例级别选择需要增量传输的SQL操作。
目标已存在表的处理模式
无需配置,保持默认即可。
源库对象
在源库对象框中单击待传输的对象,然后单击
将其移动到已选择对象框。
说明若目标库中的表名和列名与源库完全一致,则对象选择的粒度支持为整库和表。否则,对象选择的粒度仅支持为表。
已选择对象
在已选择对象框中,右键单击从源库对象中移动过来的数据库。
在弹出的编辑库对话框中,将目标库名修改为目标AnalyticDB PostgreSQL版实例中用于接收数据的Schema名称。
单击确定。
在映射列区域配置映射列信息,以存储数据准备操作生成的向量数据。
单击添加映射列。
在源 (库/表/列)列中,按层级关系选择源库中需要映射的列。
DTS会将您在源 (库/表/列)中选择的库、表、列,填充至目标 (库/表)和目标映射列。
可选:根据实际情况,将目标 (库/表)和目标映射列的信息,修改为目标AnalyticDB PostgreSQL版实例中用于存储向量数据的库名、表名、列名。
可选:重复上述步骤,添加多个映射列。
单击下一步向量配置。
如需为映射列配置解析、Chunk及Embedding策略,请执行以下操作。
在目标映射列的所在行,单击操作列的修改配置。
在弹出的修改配置面板,选择对应策略区域的推荐策略。
修改推荐策略。
策略名称
参数名称
说明
解析策略
保留元素
以元素为粒度对映射列的数据进行过滤(包含需保留和需排除的元素),将符合要求的数据传输至目标AnalyticDB PostgreSQL版实例的映射列。
说明多个元素以英文逗号(,)分隔。
排除元素
Chunk策略
Chunk 算法
将文本切分为Chunk时,使用的算法。
每个 Chunk 块最大字符数
将文本切分为Chunk时,每个Chunk中最多能包含的字符数(ChunkSize)。
两个 Chunk 块间最大重叠字符数
将文本切分为Chunk时,两个相邻Chunk之间最大允许重叠的字符数(ChunkOverlap)。
保留 Chunk 原文
若您需要保留Chunk原文,则还需填写目标AnalyticDB PostgreSQL版实例中用于存储Chunk原文的列名。
保留 Chunk ID
若您需要保留Chunk ID,则还需填写目标AnalyticDB PostgreSQL版实例中用于存储Chunk ID的列名。
Embedding策略
选择 Embedding 模型
默认为AnalyticDB-PostgreSQL,且不支持修改。
配置完成后,单击确定。
单击下一步高级配置,进行高级参数配置。
配置
说明
源库、目标库无法连接后的重试时间
在数据准备任务启动后,若源库或目标库连接失败则DTS会报错,并会立即进行持续的重试连接,默认持续重试时间为720分钟,您也可以在取值范围(10~1440分钟)内自定义重试时间,建议设置30分钟以上。如果DTS在设置的重试时间内重新连接上源库、目标库,数据准备任务将自动恢复。否则,数据准备任务将会失败。
说明针对同源或者同目标的多个DTS实例,如DTS实例A和DTS实例B,设置网络重试时间时A设置30分钟,B设置60分钟,则重试时间以低的30分钟为准。
由于连接重试期间,DTS将收取任务运行费用,建议您根据业务需要自定义重试时间,或者在源和目标库实例释放后尽快释放DTS实例。
源库、目标库出现其他问题后的重试时间
在数据准备任务启动后,若源库或目标库出现非连接性的其他问题(如DDL或DML执行异常),则DTS会报错并会立即进行持续的重试操作,默认持续重试时间为10分钟,您也可以在取值范围(1~1440分钟)内自定义重试时间,建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功,数据准备任务将自动恢复。否则,数据准备任务将会失败。
重要源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。
是否限制增量同步速率
您也可以根据实际情况,选择是否对增量任务进行限速设置(设置每秒增量同步的行数RPS和每秒增量同步的数据量(MB)BPS),以缓解目标库的压力。
为目标对象添加引号
选择是否需要为目标对象添加引号。
选择是:若源库存在以下情况,DTS会在增量数据传输阶段,自动为符合要求的Schema、表或列名添加半角单引号(')或半角双引号(")。
源库所属的业务环境对大小写敏感且大小写混用。
源表名不是以字母开头,且包含字母、数字或特殊字符以外的字符。
说明特殊字符仅支持下划线(_),井号(#)和美元符号($)。
待传输的Schema、表或列名称是目标库的关键字、保留字或非法字符。
选择否:DTS不会为目标对象添加引号。
是否去除正反向任务的心跳表sql
根据业务需求选择是否在DTS实例运行时,在源库中写入心跳SQL信息。
是:不在源库中写入心跳SQL信息,DTS实例可能会显示有延迟。
否:在源库中写入心跳SQL信息,可能会影响源库的物理备份和克隆等功能。
环境标签
您可以根据实际情况,选择用于标识实例的环境标签。本示例无需选择。
配置ETL功能
监控告警
是否设置告警,当数据准备任务失败或延迟超过阈值后,将通知告警联系人。
不设置:不设置告警。
设置:设置告警,您还需要设置告警阈值和告警联系人。更多信息,请参见在配置任务过程中配置监控告警。
保存任务并进行预检查。
若您需要查看调用API接口配置该实例时的参数信息,请将鼠标光标移动至下一步保存任务并预检查按钮上,然后单击气泡中的预览OpenAPI参数。
若您无需查看或已完成查看API参数,请单击页面下方的下一步保存任务并预检查。
说明在数据准备任务正式启动之前,会先进行预检查。只有预检查通过后,才能成功启动数据准备任务。
如果预检查失败,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。
如果预检查产生警告:
对于不可以忽略的检查项,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。
对于可以忽略无需修复的检查项,您可以依次单击点击确认告警详情、确认屏蔽、确定、重新进行预检查,跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项,可能会导致数据不一致等问题,给业务带来风险。
购买实例。
预检查通过率显示为100%时,单击下一步购买。
在购买页面,选择数据准备实例的计费方式、链路规格,详细说明请参见下表。
类别
参数
说明
信息配置
资源组配置
实例所属的资源组,默认为default resource group。更多信息,请参见什么是资源管理。
链路规格
默认为large,且不支持修改。
配置完成后,阅读并勾选《数据传输(按量付费)服务条款》。
单击购买并启动,并在弹出的确认对话框,单击确定。
您可在数据准备页面查看具体任务进度。