DRDS Reader插件实现了从DRDS(分布式RDS)读取数据。本文为您介绍DRDS Reader支持的数据类型、字段映射和数据源等参数及配置示例。
背景信息
DRDS Reader通过JDBC连接器连接至远程的DRDS数据库,根据您配置的信息生成查询SQL语句,发送至远程DRDS数据库,执行该SQL语句并返回结果。然后使用数据同步自定义的数据类型拼装为抽象的数据集,传递给下游Writer处理。
对于您配置的table、column、where等信息,DRDS Reader将其拼接为SQL语句发送至DRDS数据库。不同于普通的MySQL数据库,DRDS作为分布式数据库系统,无法适配所有MySQL的协议,包括复杂的Join等语句。
类型转换列表
DRDS Reader支持大部分DRDS类型,但也存在个别类型没有支持的情况,请注意检查您的数据类型 。
类型分类 | DRDS数据类型 |
---|---|
整数类 | INT、TINYINT、SMALLINT、MEDIUMINT和BIGINT |
浮点类 | FLOAT、DOUBLE和DECIMAL |
字符串类 | VARCHAR、CHAR、TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT |
日期时间类 | DATE、DATETIME、TIMESTAMP、TIME和YEAR |
布尔类 | BIT和BOOL |
二进制类 | TINYBLOB、MEDIUMBLOB、BLOB、LONGBLOB和VARBINARY |
参数说明
参数 | 描述 | 是否必选 | 默认值 |
---|---|---|---|
datasource | 数据源名称,脚本模式支持添加数据源,该配置项填写的内容必须与添加的数据源名称保持一致。 | 是 | 无 |
table | 所选取的需要同步的表。 | 是 | 无 |
column | 所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息,默认使用所有列配置,例如[*]:
|
是 | 无 |
where | 筛选条件,DRDS Reader根据指定的column、table、where条件拼接SQL,并根据该SQL进行数据抽取:
例如,在测试时使用where条件指定实际业务场景。通常会选择当天的数据进行同步,您可以指定where条件为 |
否 | 无 |
向导开发介绍
打开新建的数据同步节点,即可进行同步任务的配置,详情请参见通过向导模式配置离线同步任务。
- 选择数据源。
配置同步任务的数据来源和数据去向。
参数 描述 数据源 即上述参数说明中的datasource,通常输入您配置的数据源名称。 表 即上述参数说明中的table。 数据过滤 您将要同步数据的筛选条件,暂时不支持limit关键字过滤。SQL语法与选择的数据源一致。 切分键 您可以将源数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键,仅支持类型为整型的字段。 读取数据时,根据配置的字段进行数据分片,实现并发读取,可以提升数据同步效率。说明 切分键与数据同步中的选择来源有关,配置数据来源时才显示切分键配置项。 - 字段映射,即上述参数说明中的column。
左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段。鼠标放至需要删除的字段上,即可单击删除图标进行删除 。
参数 描述 同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。 同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。 取消映射 单击取消映射,可以取消建立的映射关系。 自动排版 可以根据相应的规律自动排版。 手动编辑源表字段 请手动编辑字段,一行表示一个字段,首尾空行会被采用,其它空行会被忽略。 添加一行 添加一行的功能如下所示: - 可以输入常量,输入的值需要使用英文单引号。例如,'abc'、'123'等。
- 可以配合调度参数使用。例如,${bizdate}等。
- 可以输入关系数据库支持的函数。例如,now()、count(1)等。
- 如果您输入的值无法解析,则类型显示为未识别。
- 通道控制。
参数 描述 任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 错误记录数 错误记录数,表示脏数据的最大容忍条数。 分布式处理能力 数据同步时,可以将任务切片分散到多台执行节点上并发执行,提高同步速率。该模式下,配置较大任务并发数会增加数据存储访问压力,如需使用该功能,请提前评估数据存储的访问负载。该功能仅支持在独享数据集成资源组配置,详情请参见独享数据集成资源组和新增和使用独享数据集成资源组。
脚本开发介绍
{
"type":"job",
"version":"2.0",//版本号
"steps":[
{
"stepType":"drds",//插件名
"parameter":{
"datasource":"",//数据源名
"column":[//列名
"id",
"name"
],
"where":"",//过滤条件
"table":"",//表名
"splitPk": ""//切分键
},
"name":"Reader",
"category":"reader"
},
{
"stepType":"stream",//插件名
"parameter":{},
"name":"Writer",
"category":"writer"
}
],
"setting":{
"errorLimit":{
"record":"0"//错误记录数
},
"speed":{
"throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
"concurrent":1,//并发数
"mbps":"12"//限流
}
},
"order":{
"hops":[
{
"from":"Reader",
"to":"Writer"
}
]
}
}
使用说明
- 一致性视图问题
DRDS本身属于分布式数据库,对外无法提供一致性的多库多表视图。不同于MySQL等单库单表同步,DRDS Reader无法抽取同一个时间切片的分库分表快照信息,即DRDS Reader抽取底层不同的分表将获取不同的分表快照,无法保证强一致性。
- 数据库编码问题
DRDS本身的编码设置非常灵活,包括指定编码到库、表、字段级别,甚至可以设置不同编码。优先级从高到低为字段、表、库、实例。建议您在库级别将编码统一设置为UTF-8。
DRDS Reader底层使用JDBC进行数据抽取,JDBC天然适配各类编码,并在底层进行了编码转换。因此DRDS Reader不需要您指定编码,可以自动获取编码并转码。
对于DRDS底层写入编码和其设定的编码不一致的混乱情况,DRDS Reader对此无法识别,该类情况的导出结果有可能为乱码。
- 增量数据同步的方式
DRDS Reader使用JDBC SELECT语句完成数据抽取工作,因此您可以使用
SELECT…WHERE…
进行增量数据抽取,方式如下:- 数据库在线应用写入数据库时,填充modify字段为更改时间戳,包括新增、更新、删除(逻辑删除)。对于这类应用,DRDS Reader只需要where条件后跟上一同步阶段时间戳即可。
- 对于新增流水型数据,DRDS Reader在where条件后跟上一阶段最大自增ID即可。
对于业务上无字段区分新增、修改数据的情况,DRDS Reader无法进行增量数据同步,只能同步全量数据。
- 不支持在where语句中配置物理表相关的筛选条件。