使用数据集成服务迁移数据到表格存储_表格存储(Tablestore)-阿里云帮助中心

当您的现有业务对数据库的并发读写、扩展性和可用性的要求较高，且需要使用复杂的检索或大数据分析时，如果原有数据库的数据架构不能满足现在的业务需求或改造成本较大，则您可以通过DataWorks数据集成服务将现有数据库中的数据迁移到Tablestore表中存储和使用。您还可以通过DataWorks数据集成服务实现表格存储表中数据的跨实例或者跨账号迁移以及将表格存储数据迁移到OSS或者MaxCompute中备份和使用。

应用场景

DataWorks数据集成是稳定高效、弹性伸缩的数据同步平台，适用于MySQL、Oracle、MaxCompute、Tablestore等多种异构数据源之间的数据迁移与同步。

表格存储支持通过DataWorks数据集成实现的数据迁移场景包括将数据库数据迁移到表格存储、表格存储数据跨实例或者跨账号迁移同步和将表格存储数据迁移到OSS或者MaxCompute。

将数据库数据迁移到表格存储

表格存储数据跨实例或者跨账号迁移同步

将表格存储数据迁移到OSS或者MaxCompute

DataWorks提供各种异构数据源之间稳定高效的数据同步功能，可以实现将多种数据库迁移到表格存储，如下图所示。

说明

DataWorks支持的数据源与读写插件详情请参见DataWorks支持的数据源与读写插件。

通过在DataWorks中配置表格存储相关的Reader和Writer插件，即可以完成表格存储数据表或者时序表的数据复制，如下图所示。表格存储相关的插件说明请参见下表。

插件	说明
OTSReader	用于读取表格存储表中的数据，并可以通过指定抽取数据范围实现数据增量抽取的需求。
OTSStreamReader	用于增量导出表格存储表中的数据。
OTSWriter	用于向表格存储中写入数据。

表格存储数据支持迁移到OSS或者MaxCompute，请根据实际场景选择。

云原生大数据计算服务（MaxCompute）是一种快速、完全托管的TB/PB级数据仓库解决方案。您可以使用MaxCompute备份表格存储数据或将表格存储数据迁移到MaxCompute中使用。
阿里云对象存储OSS（Object Storage Service）是一款海量、安全、低成本、高可靠的云存储服务。您可以使用OSS备份表格存储数据或者将表格存储数据同步到OSS后下载文件到本地。

迁移方案

请根据实际业务需求通过DataWorks数据集成实现表格存储与不同数据源之间的数据迁移。

数据导入的迁移方案包括同步MySQL数据到表格存储、同步Oracle数据到表格存储、同步Kafka数据到表格存储、同步HBase数据到表格存储、同步MaxCompute数据到表格存储、同步表格存储数据表中数据到另一个数据表和同步表格存储时序表中数据到另一个时序表。
数据导出的迁移方案包括同步表格存储数据到MaxCompute和同步表格存储数据到OSS。

数据导入

数据导出

数据导入相关的迁移方案说明请参见下表。

迁移方案	说明
同步MySQL数据到表格存储	MySQL数据库中的数据只能迁移到表格存储的数据表中。迁移过程中会使用到MySQL的Reader脚本配置和表格存储的Writer脚本配置，具体数据源配置如下：源数据源：MySQL数据源目标数据源：Tablestore数据源
同步Oracle数据到表格存储	Oracle数据库中的数据只能迁移到表格存储的数据表中。迁移过程中会使用到Oracle的Reader脚本配置和表格存储的Writer脚本配置。具体数据源配置如下：源数据源：Oracle数据源目标数据源：Tablestore数据源
同步Kafka数据到表格存储	Kafka中的数据支持迁移到表格存储的数据表或者时序表中。重要通过DataWorks数据集成服务，只能迁移Kafka数据到表格存储的数据表中。如果需要迁移Kafka数据到表格存储的时序表中，请使用Tablestore Sink Connector实现。具体操作，请参见同步Kafka数据到表格存储时序表。由于表格存储支持宽表模型和时序模型，迁移Kafka数据前请根据实际业务场景选择合适的表格存储数据模型使用。更多信息，请参见宽表模型和时序模型。迁移过程中会使用到Kafka的Reader脚本配置和表格存储的Writer脚本配置。具体数据源配置如下：源数据源：Kafka数据源目标数据源：Tablestore数据源
同步HBase数据到表格存储	HBase数据库中数据只支持迁移到表格存储的数据表中。迁移过程中会使用到HBase的Reader脚本配置和表格存储的Writer脚本配置。具体数据源配置如下：源数据源：HBase数据源目标数据源：Tablestore数据源
同步MaxCompute数据到表格存储	MaxCompute的数据只支持迁移到表格存储的数据表中。迁移过程中会使用到MaxCompute的Reader脚本配置和表格存储的Writer脚本配置。具体数据源配置如下：源数据源：MaxCompute数据源目标数据源：Tablestore数据源
同步PolarDB-X 2.0数据到表格存储	PolarDB-X 2.0的数据只支持迁移到表格存储的数据表中。迁移过程中会使用到PolarDB-X 2.0的Reader脚本配置和表格存储的Writer脚本配置，具体数据源配置如下：源数据源：PolarDB-X 2.0数据源目标数据源：Tablestore数据源
同步表格存储数据表中数据到另一个数据表	表格存储数据表数据只支持迁移到表格存储另一个数据表中。迁移过程中会使用到表格存储的Reader脚本配置和Writer脚本配置，具体数据源配置请参见Tablestore数据源。实际使用过程中请参考读写宽表数据的相关内容进行配置。
同步表格存储时序表中数据到另一个时序表	表格存储时序表数据只支持迁移到表格存储另一个时序表中。迁移过程中会使用到表格存储的Reader脚本配置和Writer脚本配置，具体数据源配置请参见Tablestore数据源。实际使用过程中请参考读写时序数据的相关内容进行配置。

数据导出相关的迁移方案说明请参见下表。

迁移方案

说明

同步表格存储数据到MaxCompute

您可以使用MaxCompute备份表格存储数据或者将表格存储数据迁移到MaxCompute中使用。

迁移过程中会使用到表格存储的Reader脚本配置和MaxCompute的Writer脚本配置。具体数据源配置如下：

源数据源：Tablestore数据源（全量同步）、Tablestore Stream数据源（增量同步）
目标数据源：MaxCompute数据源

同步表格存储数据到OSS

同步到OSS中的文件可自由下载，也可作为表格存储数据的备份存储于OSS。

迁移过程中会使用到表格存储的Reader脚本配置和OSS的Writer脚本配置。具体数据源配置如下：

源数据源：Tablestore数据源（全量同步）、Tablestore Stream数据源（增量同步）
目标数据源：OSS数据源

前提条件

确定迁移方案后，完成相应准备工作。

已确保源数据源和DataWorks之间以及目标数据源和DataWorks之间的网络连通。
已完成源数据源的版本确认、账号准备、权限配置、产品特有配置等操作。更多信息，请参见相应数据源文档中的配置要求。
已完成目标数据源的服务开通、所需资源创建等操作。更多信息，请参见相应数据源文档中的配置要求。

注意事项

重要

如果使用过程中遇到任何问题，请提交工单或者加入钉钉群36165029092（表格存储技术交流群-3）联系我们。

请确保DataWorks数据集成服务支持迁移相应产品版本的数据。
目标数据源的数据类型必须与源数据源的数据类型相匹配，否则迁移过程中会产生脏数据。
确定迁移方案后，请务必仔细阅读相应数据源文档中的使用限制、注意事项等信息。
迁移Kafka数据前，请务必根据实际业务场景选择合适的表格存储数据模型存储数据。

配置流程

请根据迁移方案了解通过DataWorks数据集成实现数据迁移的配置流程。

具体步骤说明请参见下表。

序号	步骤	说明

序号	步骤	说明
1	新增源数据源和目标数据源	请根据迁移方案创建所需数据源。如果要进行数据导入操作，则目标数据源为表格存储数据源，源数据源为其他数据源（例如MySQL数据源、MaxCompute数据源）或者表格存储数据源。如果要进行数据导出操作，则源数据源为表格存储数据源，目标数据源为MaxCompute数据源或者OSS数据源。
2	通过向导模式配置离线同步任务	DataWorks数据集成提供向导式的开发引导，通过可视化的填写和下一步的引导，助您快速完成数据同步任务的配置工作。向导模式的学习成本低，但无法支持部分高级功能。
3	数据迁移结果验证	请根据迁移方案在相应数据源中查看导入的数据。完成数据导入操作后，请在表格存储控制台查看导入的数据。完成数据导出操作后，请在MaxCompute控制台或OSS控制台查看导入的数据。

配置示例

数据导入

数据导出

通过DataWorks数据集成，您可以导入MySQL、Oracle、MaxCompute等数据到表格存储数据表中。此处以同步MaxCompute数据到表格存储数据表为例介绍数据迁移操作。

前提条件

请确保已完成以下准备工作后再进行后续操作。

已确认和记录MaxCompute中要同步到表格存储的表信息。
已创建RAM用户并为RAM用户授予管理表格存储权限（AliyunOTSFullAccess）和管理DataWorks权限（AliyunDataWorksFullAccess）。具体操作，请参见创建RAM用户和为RAM用户授权。
已为RAM用户创建AccessKey。具体操作，请参见创建AccessKey。
已开通DataWorks服务并创建工作空间。具体操作，请参见开通DataWorks服务和创建工作空间。
已开通表格存储服务，创建表格存储实例以及创建数据表。具体操作，请参见开通服务并创建实例和创建数据表。
重要
表格存储中数据表主键的名称和类型必须与MaxCompute中要写入主键的名称和类型相匹配。表格存储中数据表属性列不需要定义，属性列的列名可在写入数据时指定。

步骤一：新增表格存储数据源和MaxCompute数据源

此处以创建表格存储数据源为例介绍数据源的新增操作，请根据实际创建所需数据源。

重要

当新增MaxCompute数据源时，只需在新增数据源对话框找到并单击MaxCompute后进行相应配置即可。

进入数据集成页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据集成 > 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。
在左侧导航栏，单击数据源。
在数据源列表页面，单击新增数据源。
在新增数据源对话框，找到Tablestore区块，单击Tablestore。

在新增OTS数据源对话框，根据下表配置数据源参数。

参数	说明
数据源名称	数据源名称必须以字母、数字、下划线（_）组合，且不能以数字和下划线（_）开头。
数据源描述	对数据源进行简单描述，不得超过80个字符。
地域	选择Tablestore实例所属地域。
Table Store实例名称	Tablestore实例的名称。更多信息，请参见实例。
Endpoint	Tablestore实例的服务地址，推荐使用VPC地址。重要本文以Tablestore实例和DataWorks工作空间在同一阿里云主账号的同一地域下为例进行说明。更多场景信息，请参见各场景网络连通配置示例。
AccessKey ID	阿里云账号或者RAM用户的AccessKey ID和AccessKey Secret。获取方式请参见创建AccessKey。
AccessKey Secret

测试资源组连通性。
创建数据源时，您需要测试资源组的连通性，以保证同步任务使用的资源组能够与数据源连通，否则将无法正常执行数据同步任务。
1. （可选）购买并绑定资源组至当前DataWorks工作空间。具体操作，请参见新增和使用Serverless资源组。
  不推荐使用旧版资源组（独享资源组和公共资源组），相较于旧版资源组，Serverless资源组支持的能力更丰富、售卖方式更统一、能有效利用资源碎片避免浪费，因此推荐您使用Serverless资源组。
  说明
  Serverless资源组默认不具备公网访问能力。需要为绑定的VPC配置公网NAT网关和EIP后，才支持公网访问数据源。
2. 待资源组启动成功后，在连接配置区域，单击相应资源组连通状态列的测试连通性。
3. 测试连通性通过后，连通状态显示可连通，单击完成。
  在数据源列表中，可以查看新建的数据源。
  说明
  如果显示无法连通，表示资源组与数据源无法连通，后续相应数据源任务将无法正常执行。您可以参考以下思路排查处理。
  - 根据右侧弹出的连通性诊断工具窗口，自助解决连通性问题。
  - 如果连通性诊断工具未给出具体解决办法，请检查您设置的账号、密码、连接地址等参数，以及确保将资源组的IP地址加入到数据源的白名单中。更多信息，请参见网络连通方案。

步骤二：通过向导模式配置离线同步任务

新增同步任务节点。
1. 进入数据开发页面。
  登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与治理 > 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。
2. 在DataStudio控制台的数据开发页面，单击业务流程节点下的目标业务流程。
  如果需要新建业务流程，请参见创建业务流程。
3. 在数据集成节点上右键选择新建节点 > 离线同步。
4. 在新建节点对话框，输入名称，然后单击确认。
  在数据集成节点下会显示新建的离线同步节点。
配置网络与资源链路。
选择离线同步任务的数据来源、数据去向以及用于执行同步任务的资源组，并测试连通性。
1. 在数据集成节点下，双击打开新建的离线同步任务节点。
2. 在网络与资源配置步骤，选择数据来源为MaxCompute(ODPS)，并选择数据源名称为MaxCompute数据源。
3. 选择资源组。
  选择资源组后，系统会显示资源组的地域、规格等信息以及自动测试资源组与所选数据源之间的连通性。
  重要
  请与新增数据源时选择的资源组保持一致。
4. 选择数据去向为OTS，并选择数据源名称为表格存储数据源。
  系统会自动测试资源组与所选数据源之间连通性。
5. 测试数据源可连通后，单击下一步。

配置数据来源与数据去向。

在配置数据来源与去向区域，根据下表说明配置数据来源。

参数	说明
Tunnel资源组	MaxCompute的数据传输资源。默认值为公共传输资源，即MaxCompute的免费配额。说明部分地域支持使用独享数据传输资源组来获取更好的数据同步稳定性和同步的并发数。具体操作，请参见购买与使用独享数据传输服务资源组。
表	MaxCompute中的表名称。
分区信息	读取的数据所在的分区信息。

在配置数据来源与去向区域，根据下表说明配置数据去向。

参数	说明
表	表格存储中的数据表名称。
主键信息	表格存储数据表的主键信息，以JSON格式的数组表示。数据表的主键由1~4个主键列组成，请根据实际主键列个数进行配置。重要主键信息的主键列个数、顺序以及类型必须与数据表中实际的主键配置信息一致。配置示例如下： `[ { "name": "pk", "type": "string" } ]`
写入模式	数据写入表格存储的模式。取值范围如下： PutRow：对应于Tablestore API PutRow，插入数据到指定的行。如果该行不存在，则新增一行。如果该行存在，则覆盖原有行。 UpdateRow：对应于Tablestore API UpdateRow，更新指定行的数据。如果该行不存在，则新增一行。如果该行存在，则根据请求的内容在这一行中新增、修改或者删除指定列的值。

配置字段映射关系。
选择数据来源和数据去向后，需要指定读取端列和写入端列的映射关系，配置字段映射关系后，任务将根据字段映射关系，将源端字段写入目标端对应类型的字段中。系统默认按同行映射执行字段映射。
重要
- 如需改变映射顺序，您可以单击来源字段后的目标字段后的图标进行编辑。其中来源字段中的单个字段直接填写字段名称即可，目标字段中的单个字段要以JSON格式表示，例如{"name":"age","type":"INTEGER"}。一行表示一个字段。
- 表格存储中数据表属性列的数据类型必须与MaxCompute中要写入字段的数据类型相匹配。数据表属性列的名称可与MaxCompute中要写入的字段名称不同，
由于数据去向参数中默认会配置主键列信息，因此您需要手动删除目标字段中的主键列信息，否则任务执行失败。
1. 单击目标字段后的图标。
2. 在手动编辑表字段对话框中，删除目标字段中的主键列信息，并根据需要增加或修改属性列信息。
3. 单击确认。
配置通道。
在通道控制区域，配置任务运行参数，例如同步速率、脏数据同步策略等。关于参数配置的更多信息，请参见配置通道。
单击图标，保存配置。
说明
执行后续操作时，如果未保存配置，则系统会出现保存确认的提示，单击确认即可。
执行同步任务。
重要
全量数据一般只需要同步一次，无需配置调度属性。
1. 单击图标。
2. 在参数对话框，选择运行资源组的名称。
3. 单击运行。
  运行结束后，在同步任务的运行日志页签，单击Detail log url对应的链接后。在任务的详细运行日志页面，查看Current task status对应的状态。
  当Current task status的值为FINISH时，表示任务运行完成。

步骤三：查看导入到表格存储中的数据

在表格存储控制台查看表格存储数据同步结果。

登录表格存储控制台。
在概览页面上方，选择地域。
单击实例名称。
在实例详情页签下的数据表列表页签，单击目标数据表名称。
在数据管理页签，即可查看同步到该数据表中的数据。

通过DataWorks数据集成，您可以将表格存储数据导出到MaxCompute或OSS中。

同步表格存储数据到MaxCompute。
- 全量导出
  导出表格存储全量数据到MaxCompute。具体操作，请参见导出全量数据到MaxCompute。
- 增量同步
  同步表格存储增量数据到MaxCompute。具体操作，请参见同步增量数据到MaxCompute。
  增量数据同步到MaxCompute后，您可以在MaxCompute中使用merge_udf.jar包将表格存储的增量数据转换为全量数据格式。具体操作，请参见将表格存储的增量数据转换为全量数据格式。
同步表格存储数据到OSS。
- 全量导出
  导出表格存储全量数据到OSS。具体操作，请参见全量导出。
- 增量同步
  同步表格存储增量数据到OSS。具体操作，请参见增量同步。

计费说明

当导入数据到表格存储时，表格存储会根据数据存储量收取相应存储费用。

通过迁移工具访问表格存储时，表格存储会根据所用计费方式收取读写数据的费用。

计费模式	计算能力说明

计费模式	计算能力说明
VCU模式（预留模式）	按照资源评估结果预先购买预留VCU或开启弹性能力后按实际使用量支付计算性能消耗费用。计算能力中涵盖数据读写的计算消耗。
CU模式（按量模式）	根据具体的读写请求按照读写吞吐量计量计费。同时根据实例类型不同，计费时需要区分按量读写CU以及预留读写CU。说明关于实例类型和CU的更多信息，请分别参见实例和读写吞吐量。

使用DataWorks工具时，DataWorks会收取相关的功能费用和资源费用。更多信息，请参见DataWorks购买指引。

其他方案

您可以根据需要下载表格存储数据到本地文件。具体操作，请参见下载到本地文件。

您也可以通过DataX、通道服务等其他迁移工具完成数据导入。

迁移工具	说明	迁移方案

迁移工具	说明	迁移方案
DataX	DataX将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件。	同步MySQL数据到表格存储同步HBase数据到表格存储同步MaxCompute数据到表格存储同步表格存储数据表中数据到另一个数据表
通道服务	通道服务（Tunnel Service）是基于表格存储数据接口之上的全增量一体化服务。适用于源表为表格存储数据表的数据迁移同步。通道服务提供了增量、全量、增量加全量三种类型的分布式数据实时消费通道。通过为数据表建立数据通道，可以简单地实现对表中历史存量和新增数据的消费处理。	同步表格存储数据表中数据到另一个数据表
数据传输服务DTS	数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建安全、可扩展、高可用的数据架构。	同步MySQL数据到表格存储同步PolarDB-X 2.0数据到表格存储迁移PolarDB-X 2.0数据到表格存储
canal	canal基于MySQL数据库增量日志解析，提供增量数据订阅和消费功能，是阿里开源CDC工具，它可以获取MySQL binlog数据并解析，然后将数据变动传输给下游。基于canal，您可以实现从MySQL到其他数据库的实时同步。	同步MySQL数据到表格存储
Tapdata Cloud	Tapdata Cloud是由Tapdata提供的集数据复制、数据开发为一体的实时数据服务，能够在跨云、跨地域、多类型数据源的场景下，提供毫秒级的实时数据同步服务和数据融合服务。	同步MySQL数据到表格存储同步Oracle数据到表格存储

附录：字段类型映射

以下列出了常用产品与表格存储的字段类型映射关系，实际使用时请按照相应字段类型映射信息进行字段映射配置。

MaxCompute和Tablestore字段类型映射

MySQL和Tablestore字段类型映射

Kafka和Tablestore字段类型映射

MaxCompute字段类型	Tablestore字段类型
STRING	STRING
BIGINT	INTEGER
DOUBLE	DOUBLE
BOOLEAN	BOOLEAN
BINARY	BINARY

MySQL字段类型	Tablestore字段类型
STRING	STRING
INT、INTEGER	INTEGER
DOUBLE、FLOAT、DECIMAL	DOUBLE
BOOL、BOOLEAN	BOOLEAN
BINARY	BINARY

Kafka Schema Type	Tablestore字段类型
STRING	STRING
INT8、INT16、INT32、INT64	INTEGER
FLOAT32、FLOAT64	DOUBLE
BOOLEAN	BOOLEAN
BYTES	BINARY