为了满足不同业务场景数据集成的诉求,Dataphin支持用户自定义当前系统不支持的RDBMS数据库(关系型数据库)类型的组件,并进行数据同步。您只需要准备关系型数据库的驱动,即可自定义RDBMS数据库类型的组件。本教程以MySQL为例,为您介绍如何自定义RDBMS数据库及进行数据同步。
前提条件
- 已开通RDS MySQL实例,且网络类型为专有网络(VPC)。如何开通RDS MySQL实例,请参见创建RDS MySQL实例。
- 已创建RDS MySQL实例的数据库和账号,创建过程中需要您记录数据库名称、用户名和密码。如何创建数据库和账号,请参见创建数据库和账号。
背景信息
RDBMS数据库即关系型数据库,包括MySQL、Oracle、SQL Server、PostgreSQL、Vertica、DRDS、DB2、OceanBase、PolarDB、SAP HANA和TeraData。本教程以MySQL为例,带您体验自定义RDBMS数据库,并进行数据同步。
操作流程
自定义并应用MySQL数据库组件的流程,如下图所示。

步骤 | 描述 |
---|---|
步骤一:下载自定义MySQL数据库组件的驱动 | 获取自定义MySQL数据库组件驱动。 |
步骤二:配置网络和创建数据表 | 在您开始自定义并应用RDBMS数据库组件前,需要配置RDS MySQL实例和Dataphin间的网络,及创建同步数据的源表和目标表。 |
步骤三:创建自定义组件 | 自定义组件的类型为test_rdbms_mysql。完成定义后,即可在组件库的开发模块下查询到自定义的组件。 |
步骤四:创建数据源实例 | 基于自定义的组件类型(test_rdbms_mysql),创建TEST_RDBMS_MYSQL类型的数据源实例。完成创建数据源实例后,即可将RDS MySQL实例的业务数据引入至Dataphin实例。 |
步骤五:创建离线管道任务 | 基于自定义的组件类型(test_rdbms_mysql)和数据源实例(test_rdbms_mysql),创建离线管道任务。完成离线管道任务的创建后,即可运行离线管道任务,以实现数据的集成(同步数据)。 |
步骤六:生产环境中运行离线管道任务 | 在生产环境运行离线管道任务,保障生产环境业务数据的正常产出。 |
步骤一:下载自定义MySQL数据库组件的驱动
请下载MySQL数据库的驱动。
步骤二:配置网络和创建数据表
- 连通RDS MySQL实例与Dataphin实例间的网络。
- 添加RDS MySQL实例的外网地址和端口至Dataphin项目空间的沙箱白名单:
- 添加Dataphin的IP至RDS MySQL实例的白名单。如何添加Dataphin的IP至RDS MySQL实例的白名单,请参见设置IP白名单。
地域 IP白名单 华东2(上海) 100.104.228.128/26、100.104.115.192/26 华南1(深圳) 100.104.48.128/26 华北2(北京) 100.104.238.64/26 华东2(上海)、华南1(深圳)、华北2(北京) 100.104.0.0/16
- 创建同步数据的源数据表和目标数据表。
使用命令行方式连接MySQL实例,连接后创建同步数据的源数据表和目标数据表。如何连接MySQL实例,请参见方法三:使用命令行方式连接实例。
- 创建源数据表的代码示例如下。
create table xin_test_scr2 ( id string, name string ); insert into xin_test_scr2 values('1001','huayu1'),('1002','huayuyu2'),('1003','huayuyu3'),('1004','huayuyu4'),('1005','huayuyu5'),('1006','huayuyu6'),('1007','huayuyu7'),('1008','huayuyu8'),('1009','huayuyu9'),('1010','huayuyu10'),('1011','huayuyu11'),('1012','huayuyu12'),('1013','huayuyu13'),('1014','huayuyu14'),('1015','huayuyu15'),('1016','huayuyu16'),('1017','huayuyu17'),('1018','huayuyu18'),('1019','huayuyu19'),('1021','huayuyu21'),('10022','huayuyu22'),('1023','huayuyu23');
- 创建目标数据表的代码示例如下。
create table xin_test_det_1 ( id string, name string );
- 创建源数据表的代码示例如下。
步骤三:创建自定义组件
步骤四:创建数据源实例
步骤五:创建离线管道任务
步骤六:生产环境中运行离线管道任务
- 在数据集成页面,单击顶部菜单栏的运维。
- 在运维中心,运行离线管道任务。
- 查看离线管道任务运行生成的实例运行日志。