文档格式转换

通过文档格式转换功能,您可以将各类文档转换为目标格式,并支持将转换结果保存至指定OSS路径。

使用场景

  • 在线预览优化:上传PDF、Word、Excel、PPT等文档至OSS后,可以调用文档转换接口,将文档转换成图片,方便在网页端或移动端直接预览,无需下载。

  • 跨平台兼容性:通过文档转换服务,不同设备和操作系统的用户都能顺畅查看文档。

支持的输入文件类型

文件类型

文件后缀

Word

doc、docx、wps、wpss、docm、dotm、dot、dotx、html

PPT

pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm、dpss

Excel

xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets

PDF

pdf

如何使用

前提条件

转换文档格式

您可以使用SDK调用文档转换接口进行处理,并将处理后的文件保存到指定的Bucket。仅支持使用Java、Python、Go SDK通过异步处理的方式完成文档转换。

Java

要求使用3.17.4及以上版本的Java SDK。

import com.aliyun.oss.ClientBuilderConfiguration;
import com.aliyun.oss.OSS;
import com.aliyun.oss.OSSClientBuilder;
import com.aliyun.oss.common.auth.CredentialsProviderFactory;
import com.aliyun.oss.common.auth.EnvironmentVariableCredentialsProvider;
import com.aliyun.oss.common.comm.SignVersion;
import com.aliyun.oss.model.AsyncProcessObjectRequest;
import com.aliyun.oss.model.AsyncProcessObjectResult;
import com.aliyuncs.exceptions.ClientException;

import java.util.Base64;

public class Demo1 {
    public static void main(String[] args) throws ClientException {
        // yourEndpoint填写Bucket所在地域对应的Endpoint。
        String endpoint = "https://oss-cn-hangzhou.aliyuncs.com";
        // 填写Endpoint对应的Region信息,例如cn-hangzhou。
        String region = "cn-hangzhou";
        // 从环境变量中获取访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
        EnvironmentVariableCredentialsProvider credentialsProvider = CredentialsProviderFactory.newEnvironmentVariableCredentialsProvider();
        // 指定Bucket名称。
        String bucketName = "examplebucket";
        // 指定转换后的文件名称。
        String targetKey = "dest.png";
        // 指定转换前的文档名称。
        String sourceKey = "src.docx";

        // 创建OSSClient实例。
        // 当OSSClient实例不再使用时,调用shutdown方法以释放资源。
        ClientBuilderConfiguration clientBuilderConfiguration = new ClientBuilderConfiguration();
        clientBuilderConfiguration.setSignatureVersion(SignVersion.V4);
        OSS ossClient = OSSClientBuilder.create()
                .endpoint(endpoint)
                .credentialsProvider(credentialsProvider)
                .clientConfiguration(clientBuilderConfiguration)
                .region(region)
                .build();

        try {
            // 构建文档处理样式字符串以及文档转换处理参数。
            String style = String.format("doc/convert,target_png,source_docx");
            // 构建异步处理指令。
            String bucketEncoded = Base64.getUrlEncoder().withoutPadding().encodeToString(bucketName.getBytes());
            String targetEncoded = Base64.getUrlEncoder().withoutPadding().encodeToString(targetKey.getBytes());
            String process = String.format("%s|sys/saveas,b_%s,o_%s", style, bucketEncoded, targetEncoded);
            // 创建AsyncProcessObjectRequest对象。
            AsyncProcessObjectRequest request = new AsyncProcessObjectRequest(bucketName, sourceKey, process);
            // 执行异步处理任务。
            AsyncProcessObjectResult response = ossClient.asyncProcessObject(request);
            System.out.println("EventId: " + response.getEventId());
            System.out.println("RequestId: " + response.getRequestId());
            System.out.println("TaskId: " + response.getTaskId());

        } finally {
            // 关闭OSSClient。
            ossClient.shutdown();
        }
    }
}

Python

要求使用Python SDK 2.18.4及以上版本。

# -*- coding: utf-8 -*-
import base64
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider

def main():
    # 从环境变量中获取临时访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())
    # 填写Bucket所在地域对应的Endpoint。以华东1(杭州)为例,Endpoint填写为https://oss-cn-hangzhou.aliyuncs.com。
    endpoint = 'https://oss-cn-hangzhou.aliyuncs.com'
    # 指定阿里云通用Region ID,例如cn-hangzhou。
    region = 'cn-hangzhou'

    # 指定Bucket名称,例如examplebucket。
    bucket = oss2.Bucket(auth, endpoint, 'examplebucket', region=region)

    # 指定转换前的文档名称。
    source_key = 'src.docx'

    # 指定转换后的文件名称。
    target_key = 'dest.png'

    # 构建文档处理样式字符串以及文档转换处理参数。
    animation_style = 'doc/convert,target_png,source_docx'

    # 构建处理指令,包括保存路径和Base64编码的Bucket名称和目标文件名称。
    bucket_name_encoded = base64.urlsafe_b64encode('examplebucket'.encode()).decode().rstrip('=')
    target_key_encoded = base64.urlsafe_b64encode(target_key.encode()).decode().rstrip('=')
    process = f"{animation_style}|sys/saveas,b_{bucket_name_encoded},o_{target_key_encoded}"

    try:
        # 执行异步处理任务。
        result = bucket.async_process_object(source_key, process)
        print(f"EventId: {result.event_id}")
        print(f"RequestId: {result.request_id}")
        print(f"TaskId: {result.task_id}")
    except Exception as e:
        print(f"Error: {e}")


if __name__ == "__main__":
    main()

Go

要求使用Go SDK 3.0.2及以上版本。

package main

import (
    "encoding/base64"
    "fmt"
    "os"
    "github.com/aliyun/aliyun-oss-go-sdk/oss"
    "log"
)

func main() {
    // 从环境变量中获取临时访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    provider, err := oss.NewEnvironmentVariableCredentialsProvider()
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }
    // 创建OSSClient实例。
    // yourEndpoint填写Bucket对应的Endpoint,以华东1(杭州)为例,填写为https://oss-cn-hangzhou.aliyuncs.com。其他Region请按实际情况填写。
    // yourRegion指定阿里云通用Region ID,例如cn-hangzhou。
    client, err := oss.New("https://oss-cn-hangzhou.aliyuncs.com", "", "", oss.SetCredentialsProvider(&provider), oss.AuthVersion(oss.AuthV4), oss.Region("cn-hangzhou"))
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }
    // 指定Bucket名称,例如examplebucket。
    bucketName := "examplebucket"

    bucket, err := client.Bucket(bucketName)
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }

    // 指定转换前的文档名称。
    sourceKey := "src.docx"
    // 指定转换后的文件名称。
    targetKey := "dest.png"

    // 构建文档处理样式字符串以及文档转换处理参数
    animationStyle := "doc/convert,target_png,source_docx"

    // 构建处理指令,包括保存路径和Base64编码的Bucket名称和目标文件名称。
    bucketNameEncoded := base64.URLEncoding.EncodeToString([]byte(bucketName))
    targetKeyEncoded := base64.URLEncoding.EncodeToString([]byte(targetKey))
    process := fmt.Sprintf("%s|sys/saveas,b_%v,o_%v", animationStyle, bucketNameEncoded, targetKeyEncoded)

    // 执行异步处理任务。
    result, err := bucket.AsyncProcessObject(sourceKey, process)
    if err != nil {
    log.Fatalf("Failed to async process object: %s", err)
    }

    fmt.Printf("EventId: %s\n", result.EventId)
    fmt.Printf("RequestId: %s\n", result.RequestId)
    fmt.Printf("TaskId: %s\n", result.TaskId)
}

参数说明

操作名称:doc/convert

具体参数如下表所示。

参数名称

类型

是否必须

描述

target

string

目标文件类型。取值:

  • pdf

  • png

  • jpg

  • txt

source

string

源文件格式,默认使用对象名后缀。取值:

  • docx(在转换html文档时,需填写docx以完成格式转换)

  • doc

  • pptx

  • ppt

  • pdf

  • xlsx

  • xls

pages

string

转换的页码。

例如:1,2,4-10分别表示转换第1页、第2页、第4页~第10页。

需使用sys/saveas参数将转换后的文档保存在指定的Bucket中,请参见另存为。若您需要获取转换任务的处理结果,需使用notify参数,请参见消息通知

更多场景

文档格式转换是以异步请求形式提交的,即在返回处理结果时无法直接获得文档转换的结果(如处理成功或失败等信息)。如果您需要获取处理结果,建议结合轻量消息队列SMQ(原MNS)配置事件通知,即可在处理完成后收到即时通知,无需重复查询任务状态。

配置事件通知

实现事件通知,您需要先参考主题模型快速入门创建一个与您的Bucket位于同一地域的消息主题。​您可以通过以下代码在进行文档转换时配置事件通知,其中的主题名称需经过URL安全的Base64编码处理。​例如,消息主题名称为test-topic,则编码后的名称为dGVzdC10b3BpYw。 ​

示例代码

仅支持使用Java、Python、Go SDK通过异步处理的方式完成文档转换。

Java

要求使用3.17.4及以上版本的Java SDK。

import com.aliyun.oss.ClientBuilderConfiguration;
import com.aliyun.oss.OSS;
import com.aliyun.oss.OSSClientBuilder;
import com.aliyun.oss.common.auth.CredentialsProviderFactory;
import com.aliyun.oss.common.auth.EnvironmentVariableCredentialsProvider;
import com.aliyun.oss.common.comm.SignVersion;
import com.aliyun.oss.model.AsyncProcessObjectRequest;
import com.aliyun.oss.model.AsyncProcessObjectResult;
import com.aliyuncs.exceptions.ClientException;

import java.util.Base64;

public class Demo1 {
    public static void main(String[] args) throws ClientException {
        // yourEndpoint填写Bucket所在地域对应的Endpoint。
        String endpoint = "https://oss-cn-hangzhou.aliyuncs.com";
        // 填写Endpoint对应的Region信息,例如cn-hangzhou。
        String region = "cn-hangzhou";
        // 从环境变量中获取访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
        EnvironmentVariableCredentialsProvider credentialsProvider = CredentialsProviderFactory.newEnvironmentVariableCredentialsProvider();
        // 指定Bucket名称。
        String bucketName = "examplebucket";
        // 指定转换后的文件名称。
        String targetKey = "dest.png";
        // 指定转换前的文档名称。
        String sourceKey = "src.docx";

        // 创建OSSClient实例。
        // 当OSSClient实例不再使用时,调用shutdown方法以释放资源。
        ClientBuilderConfiguration clientBuilderConfiguration = new ClientBuilderConfiguration();
        clientBuilderConfiguration.setSignatureVersion(SignVersion.V4);
        OSS ossClient = OSSClientBuilder.create()
                .endpoint(endpoint)
                .credentialsProvider(credentialsProvider)
                .clientConfiguration(clientBuilderConfiguration)
                .region(region)
                .build();

        try {
            // 构建文档处理样式字符串以及文档转换处理参数。
            String style = String.format("doc/convert,target_png,source_docx");
            // 构建异步处理指令。
            String bucketEncoded = Base64.getUrlEncoder().withoutPadding().encodeToString(bucketName.getBytes());
            String targetEncoded = Base64.getUrlEncoder().withoutPadding().encodeToString(targetKey.getBytes());
            String process = String.format("%s|sys/saveas,b_%s,o_%s/notify,topic_dGVzdC10b3BpYw", style, bucketEncoded, targetEncoded);
            // 创建AsyncProcessObjectRequest对象。
            AsyncProcessObjectRequest request = new AsyncProcessObjectRequest(bucketName, sourceKey, process);
            // 执行异步处理任务。
            AsyncProcessObjectResult response = ossClient.asyncProcessObject(request);
            System.out.println("EventId: " + response.getEventId());
            System.out.println("RequestId: " + response.getRequestId());
            System.out.println("TaskId: " + response.getTaskId());

        } finally {
            // 关闭OSSClient。
            ossClient.shutdown();
        }
    }
}

Python

要求使用Python SDK 2.18.4及以上版本。

# -*- coding: utf-8 -*-
import base64
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider

def main():
    # 从环境变量中获取临时访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())
    # 填写Bucket所在地域对应的Endpoint。以华东1(杭州)为例,Endpoint填写为https://oss-cn-hangzhou.aliyuncs.com。
    endpoint = 'https://oss-cn-hangzhou.aliyuncs.com'
    # 指定阿里云通用Region ID,例如cn-hangzhou。
    region = 'cn-hangzhou'

    # 指定Bucket名称,例如examplebucket。
    bucket = oss2.Bucket(auth, endpoint, 'examplebucket', region=region)

    # 指定转换前的文档名称。
    source_key = 'src.docx'

    # 指定转换后的文件名称。
    target_key = 'dest.png'

    # 构建文档处理样式字符串以及文档转换处理参数。
    animation_style = 'doc/convert,target_png,source_docx'

    # 构建处理指令,包括保存路径和Base64编码的Bucket名称和目标文件名称。
    bucket_name_encoded = base64.urlsafe_b64encode('examplebucket'.encode()).decode().rstrip('=')
    target_key_encoded = base64.urlsafe_b64encode(target_key.encode()).decode().rstrip('=')
    process = f"{animation_style}|sys/saveas,b_{bucket_name_encoded},o_{target_key_encoded}/notify,topic_dGVzdC10b3BpYw"

    try:
        # 执行异步处理任务。
        result = bucket.async_process_object(source_key, process)
        print(f"EventId: {result.event_id}")
        print(f"RequestId: {result.request_id}")
        print(f"TaskId: {result.task_id}")
    except Exception as e:
        print(f"Error: {e}")


if __name__ == "__main__":
    main()

Go

要求使用Go SDK 3.0.2及以上版本。

package main

import (
    "encoding/base64"
    "fmt"
    "os"
    "github.com/aliyun/aliyun-oss-go-sdk/oss"
    "log"
)

func main() {
    // 从环境变量中获取临时访问凭证。运行本代码示例之前,请确保已设置环境变量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    provider, err := oss.NewEnvironmentVariableCredentialsProvider()
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }
    // 创建OSSClient实例。
    // yourEndpoint填写Bucket对应的Endpoint,以华东1(杭州)为例,填写为https://oss-cn-hangzhou.aliyuncs.com。其他Region请按实际情况填写。
    // yourRegion指定阿里云通用Region ID,例如cn-hangzhou。
    client, err := oss.New("https://oss-cn-hangzhou.aliyuncs.com", "", "", oss.SetCredentialsProvider(&provider), oss.AuthVersion(oss.AuthV4), oss.Region("cn-hangzhou"))
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }
    // 指定Bucket名称,例如examplebucket。
    bucketName := "examplebucket"

    bucket, err := client.Bucket(bucketName)
    if err != nil {
    fmt.Println("Error:", err)
    os.Exit(-1)
    }

    // 指定转换前的文档名称。
    sourceKey := "src.docx"
    // 指定转换后的文件名称。
    targetKey := "dest.png"

    // 构建文档处理样式字符串以及文档转换处理参数
    animationStyle := "doc/convert,target_png,source_docx"

    // 构建处理指令,包括保存路径和Base64编码的Bucket名称和目标文件名称。
    bucketNameEncoded := base64.URLEncoding.EncodeToString([]byte(bucketName))
    targetKeyEncoded := base64.URLEncoding.EncodeToString([]byte(targetKey))
    process := fmt.Sprintf("%s|sys/saveas,b_%v,o_%v/notify,topic_dGVzdC10b3BpYw", animationStyle, bucketNameEncoded, targetKeyEncoded)

    // 执行异步处理任务。
    result, err := bucket.AsyncProcessObject(sourceKey, process)
    if err != nil {
    log.Fatalf("Failed to async process object: %s", err)
    }

    fmt.Printf("EventId: %s\n", result.EventId)
    fmt.Printf("RequestId: %s\n", result.RequestId)
    fmt.Printf("TaskId: %s\n", result.TaskId)
}

相关API

以上操作方式底层基于API实现,如果您的程序自定义要求较高,您可以直接发起REST API请求。直接发起REST API请求需要手动编写代码计算签名。关于公共请求头Authorization的计算方法,请参见签名版本4(推荐)

转换文档格式

  • 转换前

    • 文档格式:DOCX

    • 文档名称:example.docx

  • 转换后

    • 文件格式:PNG

    • 文件存储路径:oss://test-bucket/doc_images/{index}.png

      • b_dGVzdC1idWNrZXQ=:转码完成后保存到名为test-bucketBucket中(dGVzdC1idWNrZXQ=test-bucket进行Base64编码后的值)。

      • o_ZG9jX2ltYWdlcy97aW5kZXh9LnBuZw==:object使用{index}变量以example.docx页码作为图片文件名保存到doc_images目录下(ZG9jX2ltYWdlcy97aW5kZXh9LnBuZw==doc_images/{index}.png进行Base64编码之后的值)。

    • 转换完成消息通知:发送到 topic 名为test-topic的轻量消息队列SMQ(原MNS)

处理示例

// 将文件example.docx转换为PNG格式的图片文件。
POST /example.docx?x-oss-async-process HTTP/1.1
Host: doc-demo.oss-cn-hangzhou.aliyuncs.com
Date: Fri, 28 Oct 2022 06:40:10 GMT
Authorization: SignatureValue

x-oss-async-process=doc/convert,target_png,source_docx|sys/saveas,b_dGVzdC1idWNrZXQ=,o_ZG9jX2ltYWdlcy97aW5kZXh9LnBuZw==/notify,topic_dGVzdC10b3BpYw

注意事项

  • 文档转换仅支持异步处理(x-oss-async-process处理方式)。

  • 不支持匿名访问。

  • 文档格式转换支持的文件大小最大均为200 MB,不支持调整。

常见问题

OSS文档转换支持指定Excelsheet页的内容吗?

不支持。OSS文档转换仅支持转换Excel表所有sheet页。如果您需要转换特定sheet页,建议调用IMM提供的CreateOfficeConversionTask - 创建文档转换任务接口,设置SheetIndex参数。

相关文档

关于文档格式转换的更多内容,请参见文档格式转换