数据导出到OSS概述

表格存储中的全量数据以及增量数据可以通过DataWorks数据集成同步到对象存储中备份和使用。

实现原理

DataWorks数据集成的离线同步功能将不同数据源的同步抽象为从来源数据源读取数据的Reader插件以及向目标数据源写入数据的Writer插件,方便您通过定义来源与去向数据源并结合DataWorks调度参数使用,将来源数据源中的全量或增量数据同步到目标数据源中。如下图所示。

image.png

同步表格存储数据到OSS时,离线同步任务中会涉及到配置表格存储相关的Reader插件和OSS相关的Writer插件。相关插件说明如下:

  • 表格存储相关的Reader插件

    根据数据同步方式不同,要使用的表格存储相关的Reader插件不同。具体说明请参见下表。

    同步方式

    所用插件

    插件说明

    全量导出

    Tablestore(OTS) Reader

    用于读取表格存储表中的数据,并可以通过指定抽取数据范围实现数据增量抽取的需求。更多信息,请参见Tablestore数据源

    增量同步

    OTSStream Reader

    用于增量导出表格存储表中的数据。更多信息,请参见Tablestore Stream数据源

  • OSS相关的Write插件

    不论使用的同步方式是全量导出或者增量同步,DataWorks均使用OSS Writer插件向OSS中写入数据。更多信息,请参见OSS数据源

同步方式

离线同步任务可以通过配置数据过滤并结合调度参数使用来决定同步全量数据还是增量数据。

同步方式

说明

全量导出

将表格存储的全量数据一次性导出到OSS中备份或者使用。

使用此同步方式时,只需执行一次离线同步任务即可,无需为离线同步任务配置调度属性。

增量同步

将表格存储中新增和变化的数据定期同步到OSS中备份或者使用。

使用此同步方式时,需要配置离线同步任务的调度属性用于周期性同步增量数据。

使用场景

适用于以更低成本备份表格存储数据或者以文件形式导出表格存储数据到本地的场景。

使用流程

不同同步方式的使用流程存在差异,请根据所用同步方案按照相应流程执行同步操作。具体操作,请参见导出全量数据到OSS同步增量数据到OSS

全量导出流程

image

全量导出的主要步骤说明请参见下表。

步骤

操作

说明

1

新增来源数据源

用于指定要同步数据的表所属实例信息。来源数据源为表格存储数据源。

2

新增目标数据源。

用于指定要同步到的OSS Bucket信息。目标数据源为OSS数据源。

3

新建离线任务节点

用于完成离线数据同步操作的任务。一个同步操作需要新建一个离线任务节点、

4

配置离线同步任务并启动

DataWorks数据集成提供了向导模式和脚本模式用于配置离线同步任务,请根据实际选择合适的配置模式。

  • 向导模式:通过可视化的填写和下一步的引导,帮助您快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法支持部分高级功能。

  • 脚本模式:通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,实现精细化的配置管理。

5

数据迁移结果验证

完成数据导出操作后,在OSS控制台查看导入的数据。

增量同步流程

image

增量同步的主要步骤说明请参见下表。

步骤

操作

说明

1

新增来源数据源

用于指定要同步数据的表所属实例信息。来源数据源为表格存储数据源。

如果已有表格存储数据源满足使用需求,请跳过此步骤。

2

新增目标数据源。

用于指定要同步到的OSS Bucket信息。目标数据源为OSS数据源。

如果已有OSS数据源满足使用需求,请跳过此步骤。

3

新建离线任务节点

用于完成离线数据同步操作的任务。一个同步操作需要新建一个离线任务节点、

4

配置离线同步任务并启动

DataWorks数据集成提供了向导模式和脚本模式用于配置离线同步任务,请根据实际选择合适的配置模式。

  • 向导模式:通过可视化的填写和下一步的引导,帮助您快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法支持部分高级功能。

  • 脚本模式:通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,实现精细化的配置管理。

5

配置调度属性

配置同步任务的执行时间、重跑属性、调度依赖等,用于周期性执行同步任务。

6

调试代码并提交任务

测试代码能运行成功后,提交离线同步任务到服务端,便于后续按照调度属性定期执行任务。

7

查看任务执行结果

DataWorks控制台查看任务运行状态以及在OSS管理控制台查看数据同步结果。

计费说明

  • 数据同步到OSS时,表格存储会收取读取表格存储数据的费用。表格存储支持VCU模式(原预留模式)和CU模式(原按量模式)两种计费模式,根据所用计费模式不同计费有差异。

    • 预留模式:计费项包括计算能力、数据存储量和外网下行流量,其中数据存储量包括高性能存储、容量型存储和多元索引存储。

      读取表格存储数据时会消耗计算资源,计算资源的计费涵盖在计算能力费用中。

    • 按量模式:计费项包括读吞吐量、写吞吐量、数据存储量和外网下行流量,其中读吞吐量包括预留读吞吐量和按量读吞吐量。

      读取表格存储数据时会消耗读吞吐量,表格存储会根据实际计算消耗折算成CU进行计费。同时根据实例类型不同,计费时需要区分按量读CU以及预留读CU。

      说明

      关于实例类型和CU的更多信息,请分别参见实例读写吞吐量

  • 数据同步到OSS后,OSS会根据数据文件的存储量和存储时长收取存储费用。当要下载文件到本地时,OSS会收取请求费用(Get类请求次数费用)和流量费用(外网流出流量费用)。更多信息,请参见OSS计费概述