如果要以更低成本备份表格存储中的全量数据或者以文件形式导出表格存储数据到本地,您可以通过DataWorks数据集成服务将表格存储中的全量数据导出到OSS。全量数据导出到OSS后,您可以自由下载文件到本地。
注意事项
此功能适用于表格存储宽表模型和时序模型。
准备工作
已开通OSS服务并创建存储空间Bucket。具体操作,请参见开通OSS服务和通过控制台创建存储空间。
已确认和记录表格存储中要同步到OSS的实例、数据表或者时序表信息。
已开通DataWorks服务并创建工作空间。具体操作,请参见开通DataWorks服务和创建工作空间。
已创建RAM用户并为RAM用户授予OSS完全管理权限(AliyunOSSFullAccess)和管理表格存储权限(AliyunOTSFullAccess)。具体操作,请参见创建RAM用户和为RAM用户授权。
重要由于配置时需要填写访问密钥AccessKey(AK)信息来执行授权,为避免阿里云账号泄露AccessKey带来的安全风险,建议您通过RAM用户来完成授权和AccessKey的创建。
已为RAM用户创建AccessKey。具体操作,请参见创建AccessKey。
步骤一:新增表格存储数据源
将表格存储数据库添加为数据源,具体步骤如下:
进入数据集成页面。
以项目管理员身份登录DataWorks控制台。
在左侧导航栏,单击工作空间列表后,选择地域。
在工作空间列表页面,在目标工作空间操作列选择快速进入>数据集成。
在左侧导航栏,单击数据源。
在数据源页面,单击新增数据源。
在新增数据源对话框,找到Tablestore区块,单击Tablestore。
在新增OTS数据源对话框,根据下表配置数据源参数。
参数
说明
数据源名称
数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
数据源描述
对数据源进行简单描述,不得超过80个字符。
Endpoint
Tablestore实例的服务地址。更多信息,请参见服务地址。
如果Tablestore实例和目标数据源的资源在同一个地域,填写VPC地址;如果Tablestore实例和目标数据源的资源不在同一个地域,填写公网地址。
Table Store实例名称
Tablestore实例的名称。更多信息,请参见实例。
AccessKey ID
阿里云账号或者RAM用户的AccessKey ID和AccessKey Secret。获取方式请参见创建AccessKey。
AccessKey Secret
测试资源组连通性。
创建数据源时,您需要测试资源组的连通性,以保证同步任务使用的资源组能够与数据源连通,否则将无法正常执行数据同步任务。
重要数据同步时,一个任务只能使用一种资源组。资源组列表默认仅显示独享数据集成资源组,为确保数据同步的稳定性和性能要求,推荐使用独享数据集成资源组。
如果未创建资源组,请单击新建独享数据集成资源组进行创建。具体操作,请参见新增和使用独享数据集成资源组。
单击相应资源组操作列的测试连通性,当连通状态为可连通时,表示连通成功。
测试连通性通过后,单击完成。
在数据源列表中,可以查看新建的数据源。
步骤二:新增OSS数据源
具体操作与步骤一类似,只需在新增数据源对话框,找到OSS区块,单击OSS。
本示例中,该数据源名称使用OTS2OSS,如下图所示。
配置OSS数据源的参数时,请注意Endpoint中不能包括Bucket的名称,且必须以
http://
或者https://
开头。对OSS的访问支持Access Key模式和RAM角色授权模式,请根据实际选择。
Access Key模式:通过阿里云账号或者RAM用户的AccessKey ID和AccessKey Secret访问数据源。
RAM角色授权模式:通过STS授权的方式允许云产品服务账号扮演相关角色来访问数据源,具备更高安全性。更多信息,请参见通过RAM角色授权模式配置数据源。
首次选择访问模式为RAM角色授权模式时,系统会显示警告对话框,提示创建相关服务关联角色的信息,单击开启授权进行授权。开启授权后,选择角色为新建的服务关联角色。
步骤三:新建同步任务节点
进入数据开发页面。
以项目管理员身份登录DataWorks控制台。
选择地域,在左侧导航栏,单击工作空间列表。
在工作空间列表页面,在目标工作空间操作列选择快速进入>数据开发。
在DataStudio控制台的数据开发页面,单击业务流程节点下的目标业务流程。
如果需要新建业务流程,请参见创建业务流程。
在数据集成节点上右键选择新建节点 > 离线同步。
在新建节点对话框,选择路径并填写节点名称。
单击确认。
在数据集成节点下会显示新建的离线同步节点。
步骤四:配置离线同步任务并启动
配置表格存储到OSS的全量数据同步任务,请根据所用数据存储模型选择相应任务配置方式。
如果所用的数据存储模型是宽表模型(即使用数据表存储数据),则需要同步数据表中的数据,请按照同步数据表数据的任务配置进行配置。
如果所用的数据存储模型是时序模型(即使用时序表存储数据),则需要同步时序表中的数据,请按照同步时序表数据的任务配置进行配置。
同步数据表数据的任务配置
同步时序表数据的任务配置
步骤五:查看导出到OSS中的数据
登录OSS管理控制台。
在Bucket列表页面,找到目标Bucket后,单击Bucket名称。
在文件列表页签,选择相应文件,下载后可查看内容是否符合预期。
常见问题
相关文档
将表格存储的全量数据导出到OSS后,您还可以将表格存储的增量数据同步到OSS存储。具体操作,请参见增量同步。
将表格存储的全量数据导出到OSS后,如果需要快速清理表格存储表中不再使用的历史数据,您可以通过数据生命周期功能实现。更多信息,请参见数据生命周期(数据表)或者更新时序表数据生命周期(时序表)。
如果要下载导出的OSS文件到本地,您可以使用OSS控制台、命令行工具ossutil等工具直接进行下载。更多信息,请参见简单下载。
为了防止由于误删、恶意篡改等导致重要数据不可用,您可以使用表格存储数据备份功能备份实例中宽表数据,并在数据丢失或受损时及时恢复。更多信息,请参见数据备份概述。
如果要实现表格存储数据表的冷热数据分层存储、全量数据备份表格存储数据以及大规模实时数据分析,您可以使用表格存储的数据湖投递功能实现。更多信息,请参见数据湖投递。