数据迁移
由于 TSDB 2.0 兼容 Postgresql 访问接口,因此对于关系型数据,将 TSDB 2.0 作为一个 Postgresql 数据库来访问是非常方便的。添加一个 TSDB 2.0 的数据源的步骤和添加 Postgresql 数据库是一样的。下面介绍如何在阿里云上添加 TSDB 2.0 的数据源。
ODPS 数据导入 TSDB 2.0
添加 TSDB 2.0 数据源
由于 TSDB 2.0 兼容 Postgresql 访问接口,因此对于关系型数据,将 TSDB 2.0 作为一个 Postgresql 数据库来访问是非常方便的。添加一个 TSDB 2.0 的数据源的步骤和添加 Postgresql 数据库是一样的。下面介绍如何在阿里云上添加 TSDB 2.0 的数据源。
打开 DataWorks 数据源管理,点击“添加数据源”,选择 PostgreSQL,会见到如下界面:
对于有公网IP的TSDB 2.0,选择连接串模式,输入JDBC URL、用户名、密码等信息,就可以了。点击测试连通性,如果配置无误,就会看到“测试连通性成功”的提示。然后点完成就可以成功添加此数据源了。
创建数据同步任务
在阿里云 DataStudio 之中新建一个数据集成 -> 数据同步任务。
点击任务工具栏中的 “转换脚本”,将数据同步UI转换成脚本模式。目前只支持脚本模式数据导入。
参考下一节的示例,编写数据同步脚本。
脚本编写完毕后,点击保存,运行脚本。数据同步工作即可执行。
数据同步任务示例
首先假设 ODPS 中源表结构如下:在 TSDB 2.0 中创建目标表:
create table odps_type_test (icol bigint, dcol double, tcol text, gcol geometry, ts timestamp);
创建出的表结构如下:相应的数据同步任务脚本如下:
{
"type": "job",
"steps": [
{
"stepType": "odps",
"parameter": {
"partition": [],
"datasource": "odps_first",
"column": [
"icol",
"dcol",
"tcol",
"gcol",
"ts"
],
"emptyAsNull": false,
"table": "odps_type_test"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "postgresql",
"parameter": {
"postSql": [],
"pgType": {
"gcol": "geography"
},
"datasource": "tsdb2",
"column": [
"icol",
"dcol",
"tcol",
"gcol",
"ts"
],
"writeMode": "insert",
"table": "odps_type_test",
"preSql": []
},
"name": "Writer",
"category": "writer"
}
],
"version": "2.0",
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
},
"setting": {
"errorLimit": {
"record": ""
},
"speed": {
"throttle": false,
"concurrent": 2
}
}
}
其中重点关注的点有 datasource 就是对应的ODPS数据源的名字以及我们添加的 TSDB 2.0 的数据源的名字。以及 geometry 列的导入方式。其它参数可参考 DataWorks 文档进行合适的设置。
geometry 列的导入
由于 geometry 对象是一种相对来说比较特殊的对象,并不是一种出现在 SQL 标准中的标准数据类型,因此在 JDBC 的通用框架并不支持,所以导致 geometry 对象的导入导出需要进行特殊的处理,本节就详细描述 geometry 对象导入导出的配置及其原理。
ODPS 并不支持 geometry 等空间对象,因此 ODPS 之中,空间对象要存储为 STRING 类型。空间对象的 STRING 表示法最通用的就是 WKT ( Well Known Text)表示法。所以我们要求 ODPS 数据源中的空间对象必须是采用 WKT 表示法的 STRING 类型。
同时,在 Writer 中,必须声明如下配置:其中gcol是目标表中对应的geometry列的列名。其中关键字 pgType 和 geography 不能更改。
"pgType": {
"gcol": "geography"
},
在 Writer 中如此配置之后,在写数据的 SQL 语句中,就会接受 STRING 类型的数据,并将其转换为目标表中对应列的真正类型,从而保障数据能够正确写入。目前 TSDB 2.0 只支持空间参考坐标系(SRID)为4326的空间对象,暂不支持其它空间参考坐标系。
TSDB 2.0 到 TSDB 2.0 数据同步任务
还是以上面的表为例,只需创建如下的同步任务即可:
{
"type": "job",
"steps": [
{
"stepType": "postgresql",
"parameter": {
"tableType": null,
"datasource": "tsdb2_source",
"column": [
"icol",
"dcol",
"tcol",
"gcol",
"ts"
],
"guid": null,
"where": "",
"splitPk": "",
"table": "odps_type_test"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "postgresql",
"parameter": {
"postSql": [],
"datasource": "tsdb2_dest",
"pgType": {
"gcol": "geography"
},
"column": [
"icol",
"dcol",
"tcol",
"gcol",
"ts"
],
"writeMode": "insert",
"table": "odps_type_test",
"preSql": []
},
"name": "Writer",
"category": "writer"
}
],
"version": "2.0",
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
},
"setting": {
"errorLimit": {
"record": ""
},
"speed": {
"concurrent": 2,
"throttle": false
}
}
}
保存之后执行即可在 TSDB 2.0 之间进行数据同步。
TSDB 2.0 到其它数据源也是同样的道理。