阿里云归档存储简介

更新时间:

欢迎使用阿里云归档存储。归档存储作为阿里云数据存储服务体系的一部分,提供了极低成本的数据存储服务。适合各种离线数据,包括但不局限于数字媒体、企业归档资料、科学实验数据、个人备份等。用户可以将数据进行几个月、几年甚至几十年的长时间存储。同时不需要任何基础设施的投入,即可拥有无限扩容、可选择地域的低成本数据归档方案,也免去了后续数据的管理维护成本。需要注意的是,存放于归档存储的数据大部分时间会处于“休眠”状态,而对数据的“唤醒”操作需要消耗一些时间和资源,因此如果您对数据长期稳定存储的需求较高,而对数据的访问和读取速度要求较低的话,归档存储会是一个理想的选择。用户可以使用本文档介绍的API对归档存储进行相关操作。在使用这些接口前,请确保已充分了解归档存储产品说明、使用协议和收费方式。

若要了解更多相关信息,请访问阿里云归档存储官方网站 www.aliyun.com/product/oas

基本概念

阿里云归档存储的数据模型,由Vault(目录)和Archive(文档)组成。

Archive

在归档存储中,用户操作的基本数据单元是Archive,它需要包含在Vault(1.1.2)中。Archive可以是任意类型的数据。上传Archive(4.2.1)时,文档大小限制在6GB;如果文档大小超出6GB,请使用Multipart Upload(1.1.4)方式。Archive包含ArchiveID、Description和Data等Data信息,其中ArchiveID是Archive的唯一标识,用户上传Archive时由系统自动生成并返回给用户,Description是用户对该Archive的描述,Data是Archive的数据。Archive目前仅支持通过API进行操作。

Vault

Vault是归档存储提供给用户用于管理Archive的目录,也是计费、权限控制等功能的管理单位。Vault名称在每个用户的每个Region(1.1.3)下唯一,每个用户在每个Region最多可以创建10个Vault,Vault不支持嵌套。每个Vault里可以包含任意数量的Archive。Vault可以通过阿里云管理控制台、API两种方式进行创建、删除等操作。

Vault的命名规范:

  • 只能包含小写字母、数字、下划线(_)、短横线(-);
  • 必须以小写字母或者数字开头和结尾;
  • 长度必须在 3-63 字节之间;

Region

Region是归档存储集群的标识。各Region间的操作相互独立。当前可用Region列表参见2.1.1。

Multipart Upload

Multipart Upload是把单个文档分段上传的方式,每段称之为Part(1.1.5),目的是为了便于用户上传较大的文档。使用Multipart Upload最大可以上传10000*4GB的文档。不仅如此,多段上传还支持独立、任意顺序、甚至并行上传这些段。如果某段上传失败,只需要重新上传该段即可。我们建议用户在上传大于100MB的文档时使用这种方式。该上传操作是异步方式,用户需要首先新建Multipart Upload任务,指定每次需要上传的Part字节长度,该长度值必须能够被1MB整除,且介于32MB到4096MB之间。任务启动成功后,归档存储会为该任务分配唯一的Upload ID,用户需要使用该ID作为标识完成后续Part的上传与合并。需要注意的是该任务自创建起24小时后,会自动失效。

Part

启动Multipart Upload任务成功以后,单独上传的某个范围内的文档数据称为Part。用户上传时需要指定Part在文档中所属的范围。当所有Part都上传成功以后,用户还需要主动发起一次Part合并请求(4.3.6),才能将上传的数据完整地提交到归档存储,否则任务创建超出24小时以后,用户在该任务中上传的数据将会丢失。

Job

归档存储的Vault/Archive的内容提取为异步操作,用户需要首先提交指定类型的Job完成对数据的“唤醒”,然后通过查询Job状态来确认Job是否完成。在正常情况下,任务会在4小时内完成。Job完成以后,就可以获取Job Output。Job类型可以是inventory-retrieval或archive-retrieval。前者获取到的Job Output是Job指定Vault的Archive列表信息,后者则是Job指定Archive的数据内容。注意inventory-retrieval类型Job获取到的Archive列表信息是由系统每天定期扫描生成的信息,不是实时数据。

Job类型还可以是pull-from-oss或push-to-oss。这两种Job类型为方便阿里云用户在归档存储产品与OSS产品之间实现数据归档、提档功能,并帮助用户实现无中转方式的跨产品数据传输。pull-from-oss类型的Job用于将用户在OSS产品上的Object归档到归档存储产品。 push-to-oss类型的Job用于将用户在归档存储产品上的Archive,提档到OSS产品。 这两种类型的Job依赖用户对归档存储产品授予用户OSS访问权限。

Access Key ID、Access Key Secret

归档存储会对每个访问的请求进行身份验证,请求中需要包含签名(Signature)信息。归档存储通过使用Access Key ID和Access Key Secret进行对称加密的方法来验证请求的发送者身份。Access Key ID和Access Key Secret由阿里云官方颁发给访问者(可以通过阿里云官方网站申请和管理),其中Access Key ID用于标识访问者的身份;Access Key Secret是用于加密签名字符串和服务器端验证签名字符串的密钥,请严格保密,请勿泄露给第三方。

ContentEtag、TreeEtag

归档存储会对上传的单文档或者文档分段,进行ContentEtag和TreeEtag两种方式的数据校验。ContentEtag是对数据进行md5sum校验的数值,TreeEtag是对数据按照tree-hash算法校验的数值(tree-hash算法参考:《归档存储 API调用方式-2.5.2 x-oas-tree-etag校验码》)。

功能简介

Vault操作

归档存储目前支持Vault创建(4.1.1)、删除(4.1.2)、单个Vault信息查询(4.1.3)以及Vault列表查询(4.1.4),需要注意的是:

  • 如果Vault中包含有Archive,删除操作会失败;
  • Vault列表查询不支持跨Region操作,同一请求只能获取单个Region下用户的Vault列表;
  • 用户获取Vault统计信息时,该信息不是实时更新。返回消息中Last Inventory(最后统计时间)的标识,反映了该信息的最后统计时间,信息更新来自归档存储系统定期扫描统计或者由用户主动发起的inventory-retrieval类型Job;

Vault创建操作会返回Vault ID,其他的Vault操作都需要使用该ID来完成。

Archive操作

Archive操作包括上传(4.2.1)和删除(4.2.2)。Archive上传成功以后,归档存储会返回唯一的Archive ID,删除操作需要使用该Archive ID。

Multipart Upload操作

Multipart Upload操作包括任务初始化(4.3.1)、删除(4.3.3)、任务列表查询(4.3.2)。初始化操作成功以后会启动一个多段上传的任务并返回Upload ID,后续的Part上传(4.3.4)、已上传完成的Part列表查询(4.3.5)以及Part合并操作(4.3.6)都需要指定该Upload ID。用户可以通过Multipart Upload删除操作(4.3.3)主动取消相应Archive的多段上传;多个Multipart Upload任务可以通过任务列表查询(4.3.2)来获取任务信息。任务的删除和任务列表查询同样也需要使用初始化成功返回的Upload ID进行。

Job操作

Job操作包括Job初始化(4.4.1)、Job Output下载、Job列表查询以及Job状态查询。Job初始化成功以后会创建指定类型的Job,开始数据准备并返回Job ID。准备的过程中,用户可以使用Job状态查询(4.4.4)来查看Job的状态,待Job完成后使用Job Output下载(4.4.2)来获取所需的数据。正在进行的或近期完成的Job操作可以通过Job列表查询(4.4.3)来查看。后三个Job操作都需要指定初始化Job成功后返回的Job ID。

相关文档