通过DataWorks控制台将表格存储中的全量数据导出到MaxCompute中。
步骤一:新增表格存储数据源
将表格存储数据库添加为数据源,具体操作步骤如下:
步骤二:新增MaxCompute数据源
操作与步骤一类似,只需在Big Data Storage区域,选择数据源类型为MaxCompute(ODPS)。
本示例中,该数据源名称使用OTS2ODPS,如下图所示。

步骤三:新建同步任务
新建并配置表格存储到MaxCompute的同步任务,具体操作步骤如下:
通过DataWorks控制台将表格存储中的全量数据导出到MaxCompute中。
将表格存储数据库添加为数据源,具体操作步骤如下:
参数 | 说明 |
---|---|
数据源名称 | 数据源的名称,例如gps_data。 |
数据源描述 | 数据源的描述信息。 |
Endpoint | 填写目标Tablestore实例的服务地址。
|
Table Store实例名称 | Tablestore实例的名称。 |
AccessKey ID | 登录账户的AccessKeyID和AccessKeySecret,获取方式请参见为RAM用户创建访问密钥。 |
AccessKey Secret |
操作与步骤一类似,只需在Big Data Storage区域,选择数据源类型为MaxCompute(ODPS)。
本示例中,该数据源名称使用OTS2ODPS,如下图所示。
新建并配置表格存储到MaxCompute的同步任务,具体操作步骤如下:
选择数据来源的数据源为OTS,并单击图标或者点击转换为脚本,进行脚本配置。
{
"type": "job",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {
"record": "0" # 能够允许的最大错误数。
},
"speed": {
"mbps": "1", # 最大的流量,单位为MB。
"concurrent": "1" # 并发数。
}
},
"reader": {
"plugin": "ots", # 读取的插件名称。
"parameter": {
"datasource": "", # 数据源名称。
"table": "", # 数据表名称。
"column": [ # 需要导出到MaxCompute中去的表格存储中的列名。
{
"name": "column1"
},
{
"name": "column2"
},
{
"name": "column3"
},
{
"name": "column4"
},
{
"name": "column5"
}
],
"range": { # 需要导出的数据范围,如果是全量导出,则需要从INF_MIN到INF_MAX。
"begin": [ # 需要导出数据的起始位置,最小的位置是INF_MIN。begin中的配置项数目个数和表格存储中相应表的主键列个数一致。
{
"type": "INF_MIN"
},
{
"type": "INF_MIN"
},
{
"type": "STRING", # 此配置项表示第三列的起始位置是begin1。
"value": "begin1"
},
{
"type": "INT", # 此配置项表示第四列的起始位置是0。
"value": "0"
}
],
"end": [ # 导出数据的结束位置。
{
"type": "INF_MAX"
},
{
"type": "INF_MAX"
},
{
"type": "STRING",
"value": "end1"
},
{
"type": "INT",
"value": "100"
}
],
"split": [ # 配置分区范围,一般可以不配置,如果性能较差,可以提交工单或者加入钉钉群23307953联系表格存储技术支持人员处理。
{
"type": "INF_MIN"
},
{
"type": "STRING",
"value": "splitPoint1"
},
{
"type": "STRING",
"value": "splitPoint2"
},
{
"type": "STRING",
"value": "splitPoint3"
},
{
"type": "INF_MAX"
}
]
}
}
},
"writer": {
"plugin": "odps", # MaxCompute写入的插件名。
"parameter": {
"datasource": "", # MaxCompute的数据源名称。
"column": [], # MaxCompute中的列名,列名顺序需对应TableStore中的列名顺序。
"table": "", # MaxCompute中的表名,需要提前创建好,否则任务执行会失败。
"partition": "", # 如果表为分区表,则必填。如果表为非分区表,则不能填写。需要写入数据表的分区信息,必须指定到最后一级分区。
"truncate": false # 是否清空之前的数据。
}
}
}
}
选择数据去向的数据源为ODPS,并选择对应的表。
在文档使用中是否遇到以下问题
更多建议
匿名提交