文档处理

更新时间: 2024-12-09 16:45:15

文档转换是由智能媒体管理IMM提供的对多种文档格式进行格式转换的处理能力。您可以将原始文档上传到阿里云对象存储OSS,通过OSS的RESTful数据处理接口x-oss-processx-oss-async-process在任何时间、任何地点、任何互联网设备上对文档进行文档格式转换、在线预览、在线编辑等处理。

处理参数

OSS支持直接使用一个或多个参数处理文档,也支持将多个参数封装在一个样式中批量处理文档。关于样式的更多信息,请参见样式

当存在多个处理参数时,OSS将按照参数顺序对文件进行处理。处理参数说明如下表所示。

处理操作

参数

说明

文档转换

doc/convert

将OSS中的文档转换为需要的格式。

文档在线预览

doc/preview

对OSS中的文档进行预览。

文档在线编辑

doc/edit

对OSS中的文档进行协同编辑。

文档快照

doc/snapshot

对OSS中的文档指定页生成快照。

文档智能处理

参见具体文档

对OSS中的文档进行AI处理,包括文档内容翻译、文档内容润色、文档摘要生成、文档续写、文档内容丰富以及文档语气改写六大类。

操作方式

  • 您可以通过异步处理接口x-oss-async-process对文档进行转换处理。操作方式,请参见异步处理

  • 您可以使用批处理对存量文档进行转换处理。操作方式,请参见批处理

  • 您可以使用触发器对增量文档进行转换处理。操作方式,请参见触发器

  • 您可以通过同步处理接口x-oss-process对文档进行在线预览、在线编辑、文档快照、文档智能处理。操作方式,请参见同步处理

使用限制

文档转换支持的文件类型

  • 输入文件类型

    文档类型

    文件后缀

    文字文档

    doc、dot、wps、wpt、docx、dotx、docm、dotm、txt、wpss、lrc、c、cpp、h、asm、s、java、asp、bat、bas、prg、cmd、rtf、txt、log、xml、htm、html

    演示文档

    pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm、dpss

    表格文档

    xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets

    PDF文档

    pdf

  • 输出文件类型

    文件格式

    说明

    JPEG

    按文档样式每页生成一张JPEG图片。

    PNG

    按文档样式每页生成一张PNG图片。

    PDF

    每个文档生成一个PDF文件。

    TXT

    每个文档生成一个TXT文件。

文档转换支持的文件大小和页数

  • 文档转换单次转换的原文件大小限制为200 MB。

  • 文档转换单次转换的原文件页数无限制,但页数太多可能会导致转换处理超时,此时需要传入页码参数分页转换。示例如下:

    POST /exmaple.docx?x-oss-async-process HTTP/1.1
    Host: doc-demo.oss-cn-hangzhou.aliyuncs.com
    Date: Fri, 28 Oct 2022 06:40:10 GMT
    Authorization: OSS qn6q**************:77Dv****************
     
     // 将文件example.docx的1-10页转换为PNG格式的图片文件,转换后的存储路径为:oss://test-bucket/doc_images/页码.png。
    x-oss-async-process=doc/convert,pages_MS0xMA,target_png,source_docx|sys/saveas,b_dGVzdC1idWNrZXQ,o_ZG9jX2ltYWdlcy97aW5kZXh9LnBuZw

文档预览支持的文件类型

文档预览支持的文件类型如下表所示。

文档类型

文件后缀

文字文档

doc、dot、wps、wpt、docx、dotx、docm、dotm、rtf

表格文档

xls、xlt、et、xlsx、xltx、csv、xlsm、xltm

演示文档

ppt、pptx、pptm、ppsx、ppsm、pps、potx、potm、dpt、dps

PDF文档

pdf

文档编辑支持的文件类型

文档编辑支持的文件类型如下表所示。

文档类型

文件后缀

文字文档

doc、dot、wps、wpt、docx、dotx、docm、dotm

表格文档

xls、xlt、et、xlsx、xltx、xlsm、xltm

演示文档

ppt、pptx、pptm、ppsx、ppsm、pps、potx、potm、dpt、dps

文档预览和编辑支持的文件大小和页数

  • 文档预览和编辑支持的文件大小限制为200 MB。

  • 文档预览和编辑支持的页数无限制。

文档快照支持输出的文件格式

  • 支持输出jpg、png格式。

计费

使用文档处理服务时,会产生如下费用:

  • 文档处理费用:由智能媒体管理(IMM)收取,费用详情请参见计费项

  • 请求费用:处理文档在线预览、文档在线编辑、文档快照时会产生一次Get请求,按请求次数收费。计费详情,请参见请求费用

  • 流量费用:处理文档在线预览、文档在线编辑、文档快照根据处理后的返回信息的大小收取外网流出流量费用。计费详情,请参见流量费用

常见问题

开启CDN后生成带签名的文档URL报错Either the Signature query string parameter or the Authorization header should be specified, not both.

如果您在私有 Bucket 开启回源功能后,通过 CDN 域名访问已绑定至 IMM 项目的 Bucket 中的文件,无需提供额外的签名信息。请按照以下要求进行配置:

  1. 授权默认角色 您需要为 CDN 的默认角色 AliyunCDNAccessingPrivateOSSRole授予 oss:ProcessImmimm:GetWebofficeURL权限。

  2. 访问资源时,应使用不包含签名信息的 URL。

    例如,您可以使用如下格式的URL:http://cdn.example.info/demo.ppt?x-oss-process=doc/preview,export_1,print_1使用文档在线预览功能。

上一篇: 图片识别 下一篇: 文档处理参数
阿里云首页 对象存储 相关技术圈