同步MySQL的数据至ElasticSearch时,您需要参考本文,在数据源中完成网络、白名单及权限等相关配置,为后续执行数据同步方案做好网络环境及账号权限的准备。
前提条件
配置数据源之前,请确保已完成以下规划与准备工作。
- 准备数据源:已购买来源数据源MySQL、去向数据源ElasticSearch。
- 资源规划与准备:已购买独享数据集成资源组,并完成资源配置。详情可参见资源规划与配置。
- 网络环境评估与规划:进行数据集成前,您需根据业务情况,打通数据源、独享数据集成资源组之间的网络,网络联通后参考本文进行交换机、白名单等网络环境下的访问配置。
- 如果数据源和独享数据集成资源组均处于同地域的同一VPC网络中,数据源与资源组间的网络天然联通。
- 如果数据源和独享数据集成资源组均处于不同的网络环境中,您需要通过VPN网关等方式,将数据源与资源组间的网络打通。
- 查看当前使用的数据库版本是否为MySQL
5.x
或8.x
版本。您可以通过如下语句查看。select version();
说明 DataWorks的数据集成实时同步MySQL数据是基于实时订阅MySQL实现的,实时同步MySQL数据目前仅支持配置MySQL数据源为RDS的5.x
或8.x
版本的MySQL,不支持配置为DRDS的MySQL。如果当前使用的数据库版本不是RDS的5.x
或8.x
版本的MySQL,请更换为使用RDS的5.x
或8.x
版本的MySQL,否则会导致数据集成任务无法执行。
背景信息
同步来源数据源的数据至去向数据源时,您需要保障数据源与DataWorks的独享数据集成资源组在网络上是联通的,且不存在账号权限的访问限制。
- 网络白名单以下以使用同一VPC网络环境为例,您需要将独享数据集成资源组在网络配置时所绑定的交换机网段添加至白名单中,保障数据集成资源组可访问数据源。
- 账号权限
您需要规划一个可访问数据源的账号,用于后续数据集成过程中访问数据源并进行数据提取、写入的同步操作。
- 其他访问限制。
来源数据源为MySQL时,您需要开启Binlog。Binlog是记录所有数据库表结构变更(例如执行CREATE、ALTER操作)以及表数据修改(例如执行INSERT、UPDATE、DELETE等)的日志。方便您可以通过Binlog日志中的内容,查看数据库的变更历史、进行数据库增量备份和恢复以及主从数据库的复制。
Binlog日志的格式如下:- Statement:基于SQL语句的复制。Binlog中会保存每条修改数据的SQL语句。
- Row:基于行的复制。Binlog中不保存SQL语句上下文的相关信息,仅保存被修改的记录。
- Mixed:混合模式复制。Statement与Row的结合,一般的语句修改使用Statement格式(例如函数),Statement无法完成复制的操作,则采用Row格式保存Binlog。MySQL会根据执行的每条SQL语句自主识别使用哪种格式。
使用限制
- DataWorks的数据集成实时同步MySQL数据是基于实时订阅MySQL实现的,实时同步MySQL数据目前仅支持配置MySQL数据源为RDS的
5.x
或8.x
版本的MySQL,请不要将DRDS的MySQL配置为MySQL数据源,您可以参考配置DRDS数据源文档直接将其配置为DRDS数据源。 - 不支持XA ROLLBACK,针对已经XA PREPARE的事务数据,实时同步会将其同步到目标端,如果XA ROLLBACK,实时同步不会针对XA PREPARE的数据做回滚写入的操作。若要处理XA ROLLBACK场景,需要手动将XA ROLLBACK的表从实时同步任务中移除,再添加表后重新进行全量数据初始化以及增量实时同步。
- 在添加MySQL数据源时,若添加了其他阿里云账号下的MySQL实例,后续同步任务配置该数据源时,仅支持使用独享数据集成资源组运行该同步任务,公共资源组无法访问该数据源中的数据。
操作步骤
- 配置白名单。将独享数据资源组所在的VPC网段添加至MySQL的白名单中,操作如下:
- 创建账号并配置账号权限。您需要规划一个数据库的登录账号用于后续执行操作,此账号需要拥有数据库的
SELECT, REPLICATION SLAVE, REPLICATION CLIENT
权限。 - 开启MySQL的Binlog。检查Binlog是否开启并查询Binlog格式,操作如下:
- 使用如下语句检查Binlog是否开启。
show variables like "log_bin";
返回结果为ON时,表明已开启Binlog。
- 如果您使用备用库同步数据,则还可以通过如下语句检查Binlog是否开启。
show variables like "log_slave_updates";
返回结果为ON时,表明备用库已开启Binlog。
使用如下语句查询Binlog的使用格式。show variables like "binlog_format";
返回结果说明:- 返回ROW,表明开启的Binlog格式为ROW。
- 返回STATEMENT,表明开启的Binlog格式为STATEMENT。
- 返回MIXED,表明开启的Binlog格式为MIXED。
- 使用如下语句检查Binlog是否开启。
后续步骤
配置完成数据源后,来源数据源、资源实例、去向数据源彼此间已可网络联通,且不存在访问限制。您可将来源数据源和去向数据源添加至DataWorks的数据源列表中,便于后续创建数据同步方案时关联来源和去向数据源。
添加数据源操作可参见添加数据源。