文档

创建同步RDS/MySQL/ADS3.0

更新时间:

同步数据到RDS

准备工作

1.准备RDS实例和表结构使用RDS管控台新建RDS实例,可选择经典网络和VPC网络,同样,创建DataHub同步任务时,请选择正确的网络类型。DataHub同步时,会根据DataHub Field的数据类型同步到对应的RDS数据类型中,对应的类型映射关系如下所示:

DataHub

RDS

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 类型从 java sdk 2.16.1-public 开始支持。2.RDS白名单和内网地址用户使用DataHub同步功能时,需要在RDS管控台中配置IP白名单以便DataHub服务访问用户RDS服务,DataHub服务对应的IP白名单地址域参考IP白名单同样,在创建DataHub同步任务时,用户需要填写RDS内网地址以确保网络连通性。3.同步说明1)目前DataHub仅支持将TUPLE数据同步到RDS服务中2)DataHub中的TIMESTAMP默认按照微秒(Microsecond)时间转换成RDS TIMESTAMP类型,请用户注意控制数据精度3)为了避免并发读写同一个主键数据出现加锁竞争,请用户确保同一主键的数据写入到DataHub同一Shard中4)使用VPC网络时,请确保DataHub Topic和RDS实例在同一个Region

创建同步任务

  1. 依次进入项目列表/Project详情/Topic详情页面

  2. 点击右上角的 + 同步按钮进行同步任务创建10-1

下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。

  1. HostRDS服务地址,请务必填写内网地址以确保服务联通性

  2. 导入字段DataHub可以根据用户设置将部分column内容同步到RDS表中

  3. 写入模式包括IGNORE和OVERWRITE两种模式

    • IGNORE: 忽略重复数据,即INSERT IGNORE INTO写入

    • OVERWRITE: 更新重复数据,即REPLACE INTO写入

  4. VpcId和实例ID当用户的RDS处于VPC网络时,需要填写对应的VpcId信息和RDS实例信息

    同步示例

  5. 创建RDS实例和表结构在RDS管控台中创建RDS实例和数据表,如下图所示:10-2

  6. 建立DataHub Topic在DataHub中建立Topic,示例中为TUPLE类型topic,schema如下图所示:10-3

  7. 建立同步任务这里写入模式选择IGNORE,导入所有字段10-4

  8. 向DataHub中写入TUPLE数据,数据内容如下图所示,共4条数据10-5

  9. 确认同步数据这里采用MySQL客户端连接RDS服务查看数据,数据结果如下图所示:10-6

同步数据到MySQL

准备工作

1.准备MySQL实例和表结构使用MySQL管控台新建MySQL实例

DataHub同步时,会根据DataHub Field的数据类型同步到对应的MySQL数据类型中,对应的类型映射关系如下所示:

DataHub

MySQL

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 类型从 java sdk 2.16.1-public 开始支持。

2.同步说明1)目前DataHub仅支持将TUPLE数据同步到MySQL服务中2)DataHub中的TIMESTAMP默认按照微秒(Microsecond)时间转换成MySQL TIMESTAMP类型,请用户注意控制数据精度3)为了避免并发读写同一个主键数据出现加锁竞争,请用户确保同一主键的数据写入到DataHub同一Shard中

创建同步任务

  1. 依次进入项目列表/Project详情/Topic详情页面

  2. 点击右上角的 + 同步按钮进行同步任务创建

10-7

下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。

  1. HostMySQL服务地址,请务必填写内网地址以确保服务联通性

  2. 导入字段DataHub可以根据用户设置将部分column内容同步到MySQL表中

  3. 写入模式包括IGNORE和OVERWRITE两种模式

    • IGNORE: 忽略重复数据,即INSERT IGNORE INTO写入

    • OVERWRITE: 更新重复数据,即REPLACE INTO写入

同步示例

  1. 创建MySQL实例和表结构在MySQL管控台中创建MySQL实例和数据表

  2. 建立DataHub Topic在DataHub中建立Topic,示例中为TUPLE类型topic,schema如下图所示:

10-8
  1. 建立同步任务这里写入模式选择IGNORE,导入所有字段

10-9
  1. 向DataHub中写入TUPLE数据,数据内容如下图所示,共4条数据

10-10
  1. 确认同步数据这里采用MySQL客户端连接MySQL服务查看数据,数据结果如下图所示:

10-11

同步数据到ADS3.0

准备工作

1.准备ADS实例和表结构使用ADS管控台新建ADS实例,可选择经典网络和VPC网络,同样,创建DataHub同步任务时,请选择正确的网络类型。DataHub同步时,会根据DataHub Field的数据类型同步到对应的ADS数据类型中,对应的类型映射关系如下所示:

DataHub

ADS

TINYINT

TINYINT

SMALLINT

SMALLINT

INTEGER

INT

BIGINT

BIGINT

STRING

VARCHAR

BOOLEAN

BOOLEAN / TINYINT

FLOAT

FLOAT

DOUBLE

DOUBLE

TIMESTAMP

TIMESTAMP / BIGINT

DECIMAL

DECIMAL

DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 类型从 java sdk 2.16.1-public 开始支持。2.ADS白名单和内网地址用户使用DataHub同步功能时,需要在RDS管控台中配置IP白名单以便DataHub服务访问用户ADS服务,DataHub服务对应的IP白名单地址域参考 IP白名单地址同样,在创建DataHub同步任务时,用户需要填写ADS内网地址以确保网络连通性。3.同步说明1)目前DataHub仅支持将TUPLE数据同步到ADS服务中2)DataHub中的TIMESTAMP默认按照微秒(Microsecond)时间转换成ADS TIMESTAMP类型,请用户注意控制数据精度3)为了避免并发读写同一个主键数据出现加锁竞争,请用户确保同一主键的数据写入到DataHub同一Shard中4)使用VPC网络时,请确保DataHub Topic和ADS实例在同一个Region

创建同步任务

  1. 依次进入项目列表/Project详情/Topic详情页面

  2. 点击右上角的 + 同步按钮进行同步任务创建10-12

下面罗列了部分管控台创建同步任务的配置说明,更多更灵活的操作请参考SDK使用。

  1. HostRDS服务地址,请务必填写内网地址以确保服务联通性

  2. 导入字段DataHub可以根据用户设置将部分column内容同步到RDS表中

  3. 写入模式包括IGNORE和OVERWRITE两种模式

    • IGNORE: 忽略重复数据,即INSERT IGNORE INTO写入

    • OVERWRITE: 更新重复数据,即REPLACE INTO写入

  4. VpcId和实例ID,如图所示:

10-13

注意:填入实例ID时需要注意加上-controller,例如上图所示集群ID为am-bp10732mzu7wd78x9,则实例ID填写am-bp10732mzu7wd78x9-controller

同步示例

  1. 创建ADS实例和表结构

  2. 建立DataHub Topic在DataHub中建立Topic,示例中为TUPLE类型topic,schema如下图所示:10-14

  3. 建立同步任务这里写入模式选择IGNORE,导入所有字段10-15

  4. 向DataHub中写入TUPLE数据,数据内容如下图所示,共4条数据10-16

  5. 确认同步数据这里采用MySQL客户端连接ADS服务查看数据,数据结果如下图所示:10-17