更新时间:2020-08-17 15:23
本文介绍如何通过数据集成在PolarDB-X中进行数据导入和导出。
数据集成是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为20多种数据源提供不同网络环境下的离线(全量或增量)数据进出通道。
使用数据集成,您可以在PolarDB-X完成以下数据同步任务:
本文包含以下内容:
数据同步流程主要包含以下几个步骤:
使用数据集成在PolarDB-X进行数据导入导出之前,请先注册阿里云账号并参考创建RAM子账号文档,完成以下准备工作:
下面以添加PolarDB-X的数据源为例。
注意:只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。
以项目管理员身份登录数加管理控制台。
在项目列表中对应项目的操作栏单击进入工作区。
进入顶部菜单栏中的数据集成页面,单击左侧导航栏中的数据源。
点击右上角的新增数据源,如下图所示:
在新增数据源弹出框中填写相关配置项,如下图所示:
针对PolarDB-X数据源配置项的具体说明如下:
数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过 60 个字符 。
数据源描述:对数据源进行简单描述,不得超过 80 个字符 。
数据源类型:当前选择的数据源类型 DRDS。
网络类型:当前选择的网络类型。
JDBCUrl:JDBC 连接信息,格式为jdbc://mysql://serverIP:Port/database
。
用户名/密码:对应的用户名和密码。
完成上述信息项的配置后,单击测试连通性。
测试连通性通过后,单击确定。
下文以通过数据集成的向导模式将 MaxCompute(原 ODPS)数据同步到PolarDB-X为例。
在数据集成页面,新建同步任务。
选择数据来源。选择 MaxCompute 数据源及源头表 mytest,数据浏览默认是收起的,选择后单击下一步:
选择目标。选择PolarDB-X数据源及目标表contact_infos,选择后单击下一步:
选择字段的映射关系。左侧源头表字段和右侧目标表字段为一一对应的关系,如下图所示。
在通道控制页面单击下一步,配置作业速率上限和脏数据检查规则。
当作业速率上限已选定的情况下,可以根据以下原则选择并发数:
完成以上配置后,上下滚动鼠标可查看任务配置,确定无误后单击保存。
单击运行任务,直接运行同步任务结果。您可以将同步任务提交到调度系统中,调度系统会按照配置属性从第二天开始自动定时执行。
脚本模式配置同步任务
{
"type": "job",
"version": "1.0",
"configuration": {
"reader": {
"plugin": "odps",
"parameter": {
"datasource": "lzz_odps",//数据源的名称,建议都添加数据源后进行同步
"table": "mytest",//数据来源的表名
"partition": "",//分区信息
"column": [
"id"
]
}
},
"writer": {
"plugin": "drds",
"parameter": {
"datasource": "l_Drds_w",//数据源的名称,建议都添加数据源后进行同步
"table": "contact_infos",//目的表名
"preSql": [],//导入前准备语句
"postSql": [],//导入后准备语句
"column": [
"id"
]
}
},
"setting": {
"speed": {
"mbps": "1",//一个并发的速率上线是1MB/S
"concurrent": "1"//并发的数目
}
}
}
}
下文以通过向导模式将PolarDB-X数据同步到 MaxCompute 为例。
在数据集成页面,新建同步任务。
选择数据来源。选择PolarDB-X数据源及源头表 bit_type_test。数据浏览默认是收起的,选择后单击下一步,如下图所示:
STRTODATE(‘${bdp.system.bizdate}’, ‘%Y%m%d’) <= taday AND taday < DATEADD(STRTODATE(‘${bdp.system.bizdate}’, ‘%Y%m%d’), interval 1 day)
。选择 MaxCompute 数据源及目标表 mytest,选择后单击下一步。
单击下一步,选择字段的映射关系。左侧源头表字段和右侧目标表字段为一一对应的关系:
您也可以单击“添加一行”增加映射关系:
now()
、count(1)
等;在通道控制页面单击下一步,配置作业速率上限和脏数据检查规则。
当作业速率上限已选定的情况下,可以按以下原则选择并发数:
完成以上配置后,上下滚动鼠标可查看任务配置。确认无误后单击保存。
单击运行任务直接运行同步任务结果。您也可以将同步任务提交到调度系统中,调度系统会按照配置属性从第二天开始自动定时执行。
脚本模式配置同步任务
{
"type": "job",
"version": "1.0",
"configuration": {
"reader": {
"plugin": "drds",
"parameter": {
"datasource": "l_Drds_w",//数据源的名称,建议都添加数据源后进行同步
"table": "bit_type_test",/数据来源的表名
"where": "",
"splitPk": "col2",//切分键
"column": [
"idbit"
]
}
},
"writer": {
"plugin": "odps",
"parameter": {
"datasource": "lzz_odps",//数据源的名称,建议都添加数据源后进行同步
"table": "mytest",
"truncate": true,
"partition": "",//分区信息
"column": [
"id"
]
}
},
"setting": {
"speed": {
"mbps": "1",//作业速率上限
"concurrent": "1"//并发数
},
"errorLimit": {
"record": "234"//错误记录数
}
}
}
}
在文档使用中是否遇到以下问题
更多建议
匿名提交