文档快照

您可以通过文档快照功能,获取文档(Word/Excel/PPT/PDF)特定页的快照。

使用场景

  • 数据备份与恢复:在业务系统日常运行过程中,定期创建OSS Bucket中的文档快照,用于备份数据。

  • 关键信息提取:文档快照可以获取特定页的快照,快速提取关键信息。

注意事项

  • 文档快照仅支持同步处理(x-oss-process处理方式)。

  • 使用文档快照前,需要先绑定IMM Project。关于控制台和API如何绑定,请参见快速入门AttachOSSBucket

  • 不支持匿名访问。

  • 必须拥有IMM处理所需的相关权限。更多信息,请参见权限

参数说明

操作名称:doc/snapshot

具体参数如下表所示:

参数

类型

是否必须

描述

target

string

图片目标格式。取值:

  • png(默认)

  • jpg

source

string

文档源文件格式,默认使用对象名后缀。取值:

  • pdf

  • xlsx

  • xls

  • docx

  • doc

  • pptx

  • ppt

说明

如果该字段未填写,并且对象无后缀,会返回错误。

page

int

文档页码。默认首页从1开始,最大2000。

返回图片的二进制流,可以直接在浏览器中预览。

使用REST API

获取example.docx的首页快照

处理方式

默认处理

处理示例

// 获取example.docx的首页快照。
GET /exmaple.docx?x-oss-process=doc/snapshot HTTP/1.1
Host: doc-demo.oss-cn-hangzhou.aliyuncs.com
Date: Fri, 28 Oct 2022 06:40:10 GMT
Authorization: OSS qn6q**************:77Dv****************

获取word文档example第2页的jpg快照

处理方式

  • target: jpg

  • source: docx

  • page: 2

处理示例

// 获取word文档example第2页的jpg快照。
GET /exmaple?x-oss-process=doc/snapshot,target_jpg,source_docx,page_2 HTTP/1.1
Host: doc-demo.oss-cn-hangzhou.aliyuncs.com
Date: Fri, 28 Oct 2022 06:40:10 GMT
Authorization: OSS qn6q**************:77Dv****************

使用SDK

以下仅列举常见SDK通过处理参数的方式获取文档快照的代码示例。如需使用其他SDK获取文档快照的代码示例,请参见以下常见SDK自行调整。

Java

要求使用3.17.4及以上版本的Java SDK。

import com.aliyun.oss.ClientBuilderConfiguration;
import com.aliyun.oss.OSS;
import com.aliyun.oss.OSSClientBuilder;
import com.aliyun.oss.common.auth.CredentialsProviderFactory;
import com.aliyun.oss.common.auth.EnvironmentVariableCredentialsProvider;
import com.aliyun.oss.common.comm.SignVersion;
import com.aliyun.oss.model.OSSObject;
import com.aliyun.oss.model.GetObjectRequest;
import com.aliyuncs.exceptions.ClientException;

import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.nio.file.Files;
import java.nio.file.Paths;

public class Demo {
    public static void main(String[] args) throws ClientException, ClientException {
        // yourEndpoint填写Bucket所在地域对应的Endpoint。
        String endpoint = "https://oss-cn-hangzhou.aliyuncs.com";
        // 填写Endpoint对应的Region信息,例如cn-hangzhou。
        String region = "cn-hangzhou";
        // 从环境变量中获取访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
        EnvironmentVariableCredentialsProvider credentialsProvider = CredentialsProviderFactory.newEnvironmentVariableCredentialsProvider();
        // 指定Bucket名称。
        String bucketName = "examplebucket";
        // 如果文档位于Bucket根目录,则直接填写文档名称。如果文档不在Bucket根目录,需携带文档完整路径,例如exampledir/example.docx。
        String key = "example.docx";

        // 创建OSSClient实例。
        ClientBuilderConfiguration clientBuilderConfiguration = new ClientBuilderConfiguration();
        clientBuilderConfiguration.setSignatureVersion(SignVersion.V4);
        OSS ossClient = OSSClientBuilder.create()
                .endpoint(endpoint)
                .credentialsProvider(credentialsProvider)
                .clientConfiguration(clientBuilderConfiguration)
                .region(region)
                .build();

        try {
            // 构建文档快照处理指令。
            GetObjectRequest getObjectRequest = new GetObjectRequest(bucketName, key);
            getObjectRequest.setProcess("doc/snapshot,target_jpg,source_docx,page_2");

            // 使用getObject方法,并通过process参数传入处理指令。
            OSSObject ossObject = ossClient.getObject(getObjectRequest);

            // 指定保存文档快照的本地文件路径。
            String localFilePath = "D://snapshot.jpg";

            // 创建输出流到本地文件。
            try (OutputStream outputStream = Files.newOutputStream(Paths.get(localFilePath));
                 InputStream inputStream = ossObject.getObjectContent()) {

                byte[] buffer = new byte[1024];
                int bytesRead;
                while ((bytesRead = inputStream.read(buffer)) != -1) {
                    outputStream.write(buffer, 0, bytesRead);
                }

                System.out.println("Document snapshot saved to: " + localFilePath);
            }
        } catch (IOException e) {
            System.out.println("Error: " + e.getMessage());
        } finally {
            // 关闭OSSClient。
            ossClient.shutdown();
        }
    }
}

PHP

要求使用PHP SDK 2.7.0及以上版本。

<?php
if (is_file(__DIR__ . '/../autoload.php')) {
    require_once __DIR__ . '/../autoload.php';
}
if (is_file(__DIR__ . '/../vendor/autoload.php')) {
    require_once __DIR__ . '/../vendor/autoload.php';
}
use OSS\Credentials\EnvironmentVariableCredentialsProvider;
use OSS\OssClient;
try {
    // 从环境变量中获取访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    $provider = new EnvironmentVariableCredentialsProvider(); 
    // 填写Bucket所在地域对应的Endpoint。以华东1(杭州)为例,Endpoint填写为https://oss-cn-hangzhou.aliyuncs.com。
    $endpoint = 'https://oss-cn-hangzhou.aliyuncs.com';
    // 填写Bucket名称,例如examplebucket。
    $bucket = 'examplebucket';
    // 如果文档位于Bucket根目录,则直接填写文档名称。如果文档不在Bucket根目录,需携带文档完整路径,例如exampledir/example.docx。
    $key = 'example.docx'; 
    $config = array(
        "provider" => $provider,
        "endpoint" => $endpoint,        
        "signatureVersion" => OssClient::OSS_SIGNATURE_VERSION_V4,
        // 填写阿里云通用Region ID。
        "region" => "cn-hangzhou"
    );
    $ossClient = new OssClient($config);
  // 构建文档快照处理指令。
  $options[$ossClient::OSS_PROCESS] = "doc/snapshot,target_jpg,source_docx,page_2";
  $result = $ossClient->getObject($bucket,$key,$options);
  var_dump($result);

  // 将文档快照保存到本地路径。
  file_put_contents('D://snapshot.jpg', $result);
} catch (OssException $e) {
  printf($e->getMessage() . "\n");
  return;
}

Python

要求使用Python SDK 2.18.4及以上版本。

# -*- coding: utf-8 -*-
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider

# 从环境变量中获取访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())

# 填写Bucket所在地域对应的Endpoint。以华东1(杭州)为例,Endpoint填写为https://oss-cn-hangzhou.aliyuncs.com。
endpoint = 'https://oss-cn-hangzhou.aliyuncs.com'
# 填写阿里云通用Region ID。
region = 'cn-hangzhou'
bucket = oss2.Bucket(auth, endpoint, 'examplebucket', region=region)

# 如果文档位于Bucket根目录,则直接填写文档名称。如果文档不在Bucket根目录,需携带文档完整路径,例如exampledir/example.docx。
key = 'example.docx'

# 构建文档快照的处理指令。
process = 'doc/snapshot,target_jpg,source_docx,page_2'

try:
    # 使用get_object方法,并通过process参数传入处理指令。
    result = bucket.get_object(key, process=process)

    doc_snapshot = result.read()

    # 指定保存文档快照的本地文件路径。
    local_snapshot_path = 'D://snapshot.jpg'

    # 将快照数据保存到本地文件。
    with open(local_snapshot_path, 'wb') as snapshot_file:
        snapshot_file.write(doc_snapshot)

    print(f"Document snapshot saved as {local_snapshot_path}")

# 处理OSS相关异常。
except oss2.exceptions.OSSError as e:
    print(f"OSS Error: {e}")
# 捕获其他所有异常。
except Exception as e:
    print(f"Unexpected Error: {e}")

Go

要求使用Go SDK 3.0.2及以上版本。

package main

import (
	"fmt"
	"os"
    "io"
	"github.com/aliyun/aliyun-oss-go-sdk/oss"
)

func main() {
	// 从环境变量中获取临时访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
	provider, err := oss.NewEnvironmentVariableCredentialsProvider()
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}
	// 创建OSSClient实例。
	// yourEndpoint填写Bucket对应的Endpoint,以华东1(杭州)为例,填写为https://oss-cn-hangzhou.aliyuncs.com。其他Region请按实际情况填写。
	// yourRegion指定阿里云通用Region ID,例如cn-hangzhou。
	client, err := oss.New("https://oss-cn-hangzhou.aliyuncs.com", "", "", oss.SetCredentialsProvider(&provider), oss.AuthVersion(oss.AuthV4), oss.Region("cn-hangzhou"))
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}
	// 指定Bucket名称,例如examplebucket。
	bucketName := "examplebucket"

	bucket, err := client.Bucket(bucketName)
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}
        // 如果文档位于Bucket根目录,则直接填写文档名称。如果文档不在Bucket根目录,需携带文档完整路径,例如exampledir/example.docx。
        // 通过oss.Process方法构建文档快照处理指令。
	body, err := bucket.GetObject("example.docx", oss.Process("doc/snapshot,target_jpg,source_docx,page_2"))
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}

	defer body.Close()
	data, err := io.ReadAll(body)
	if err != nil {
		fmt.Println("Error:", err)
		os.Exit(-1)
	}

	// 指定保存文档快照的本地路径。
	savePath := "D://snapshot.jpg"

	// 将数据写入指定路径。
	err = os.WriteFile(savePath, data, 0644)
	if err != nil {
		fmt.Println("Error saving snapshot to file:", err)
		os.Exit(-1)
	}

	fmt.Println("Document snapshot saved as", savePath)
}

常见问题

  • 文档快照对源文档大小限制是多少?

    文档快照对源文档大小限制是20M。