无需解冻直接实时读取OSS-HDFS服务归档文件

归档直读是指直接访问OSS-HDFS服务中归档存储类型的文件,而无需先对其解冻。归档直读适用于实时读取极少需要访问的数据场景。

前提条件

使用限制

归档直读仅适用于OSS-HDFS服务Bucket中归档存储类型的文件,不适用于其他存储类型的文件。

费用说明

  • 为Bucket开启归档直读后,直接读取Bucket中未解冻的归档存储类型文件,会产生归档直读数据取回容量(RetrievalDataArchiveDirect)费用。对于已解冻的归档存储类型文件,直接读取不会产生归档直读数据取回容量费用。详情请参见数据处理费用

  • 归档直读数据取回量取决于与HTTP建立连接时请求头中指定的数据读取范围。传输连接的提前断开不会影响已发起请求的归档直读数据取回容量。例如,实际读取1字节数据后中断连接,但是请求范围为100 MB~200 MB,将按照100 MB~200 MB计算归档直读数据取回容量。

操作步骤

  1. 连接ECS实例。具体操作,请参见连接ECS实例

  2. 下载Jindofs SDK

  3. 配置访问密钥和环境变量。

    1. 进入已安装的Jindofs JAR包下的bin目录。

      以下以jindofs-sdk-x.x.x-linux为例,如使用其他版本的JindoSDK,请替换为对应的JAR包名称。

      cd jindofs-sdk-x.x.x-linux/bin/
    2. 在bin目录下新建配置文件jindofs.cfg,并配置阿里云账号的访问密钥(包括Accesskey ID和Accesskey Secret),或者满足权限要求的RAM用户的访问密钥。

      [client]
      fs.oss.accessKeyId = <key>              
      fs.oss.accessKeySecret = <secret>
    3. 设置环境变量。

      说明

      <JINDOSDK_CONF_DIR>填写jindofs.cfg配置文件所在的绝对路径。

      export JINDOSDK_CONF_DIR=<JINDOSDK_CONF_DIR>
  4. 为Bucket开启归档直读功能。

    以下示例用于为华东(上海)地域的examplebucket开启归档直读功能。其他地域的Bucket,请对应替换Region和Bucket名称。

    ./jindofs admin -putConfig -dlsUri oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/ -conf namespace.archive.directread.enable=true
  5. 查看Bucket归档直读配置信息。

    ./jindofs admin -putConfig -dlsUri oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/ -name namespace.archive.directread.enable

    返回信息如下,说明Bucket已开启归档直读功能。

    namespace.archive.directread.enable: true

后续步骤

为Bucket开启归档直读后,您无需解冻Bucket中的归档存储类型文件,就可以直接对其进行涉及读取的操作,包括下载文件、查看文件信息、拷贝文件的操作。

相关文档

如果您未开启归档直读,需要先解冻,才能读取归档存储类型文件。如何解冻归档文件,请参见临时解冻归档文件