全部产品
阿里云办公

格式转换

更新时间:2018-08-21 21:02:05

文档格式转换,是把支持的输入文档类型,转换为指定的输出文档类型,便于上层应用更好的使用文档内容。

文档格式转换的时间,依赖于 文档大小文档页数文档字数 等因素,典型情况下在 秒级 可以完成请求,但是 大文件、多页数、多字数 的文档可能需要 几十秒 的时间。

为了降低请求的应用等待时间,文档格式转换目前提供了异步调用接口,如下是格式转换提供的能力介绍。

输入文档类型

目前支持的 输入文件类型 包含如下 48 种格式:

  1. 演示文件:pptxpptpotpotxppsppsxdpsdptpptmpotmppsm
  2. 表格文件:xlsxltetettxlsxxltxcsvxlsbxlsmxltm
  3. 文字文件:docdotwpswptdocxdotxdocmdotm
  4. 其他格式文件: pdflrcccpphasmsjavaaspbatbasprgcmdrtftxtlogxmlhtmhtml

输出文档类型

目前支持的 输出文件类型 有如下 4 种:

  1. vector 向量模式,使用智能媒体管理产品提供的 前端渲染引擎,更好的支持翻页、缩放。
  2. jpg 模式,按文件样式每页生成一张 jpg 图片。
  3. png 模式,按文件样式每页生成一张 png 图片。
  4. pdf 模式,每个文件生成一个 pdf 文件。

输出文档命名规则

格式转换的输出文档保存在请求指定的 OSS 路径中,比如请求指定输出到如下的 OSS 路径 /bucket1/imm-format-convert-tgt/session123/,根据请求指定的输出类型,会有不同的命名规则。

输出类型为 vector

对于 非 excel 文档excel 文档 有不同的输出内容,关键差别在于 excel 文档 文档需要分 sheet 显示,而 非 excel 文档 则是按页显示,输出示例如下所示:

  • 输入文档为非 excel 类型(例如 ppt 或 doc 文档)的输出内容
    • /bucket1/imm-format-convert-tgt/session123/doc/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp[…].json
    • /bucket1/imm-format-convert-tgt/session123/doc/I/1
    • /bucket1/imm-format-convert-tgt/session123/doc/I/2
    • /bucket1/imm-format-convert-tgt/session123/doc/I/[…]

其中 meta.json 文档是元数据,fp1.jsonfp2.json、… 文档是每页的渲染信息,I/1I/2、… 文档是渲染使用的具体类容。

  • 输入文档为 excel 类型的输出内容
    • /bucket1/imm-format-convert-tgt/session123/doc/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp[…].json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp[…].json
    • /bucket1/imm-format-convert-tgt/session123/doc/s[…]/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s[…]/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s[…]/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s[…]/fp[…].json

其中 meta.json 文档是元数据,s1/meta.json 是 sheet1 的元数据,s1/fp1.jsons1/fp2.json、… 文档是 sheet1 每页的渲染信息。

注意:vector 模式需要使用智能媒体管理提供的 前端渲染引擎

输出类型为 jpg

  • 输入文档为非 excel 类型(例如 ppt 或 doc 文档)的输出内容

    • /bucket1/imm-format-convert-tgt/session123/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/[…].jpg
  • 输入文档为 excel 类型的输出内容

    • /bucket1/imm-format-convert-tgt/session123/s1/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/s1/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/s1/[…].jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/[…].jpg
    • /bucket1/imm-format-convert-tgt/session123/s[…]/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/s[…]/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/s[…]/[…].jpg

注意:输入文档为 excel 类型时,会先根据 excel 的表格数,生成对应数量的文件夹,再在对应的文件夹下,按照预览页面大小生成对应数量的 jpg 文件。

输出类型为 png

  • 输入文档为非 excel 类型(例如 ppt 或 doc 文档)的输出内容

    • /bucket1/imm-format-convert-tgt/session123/1.png
    • /bucket1/imm-format-convert-tgt/session123/2.png
    • /bucket1/imm-format-convert-tgt/session123/[…].png
  • 输入文档为 excel 类型的输出内容

    • /bucket1/imm-format-convert-tgt/session123/s1/1.png
    • /bucket1/imm-format-convert-tgt/session123/s1/2.png
    • /bucket1/imm-format-convert-tgt/session123/s1/[…].png
    • /bucket1/imm-format-convert-tgt/session123/s2/1.png
    • /bucket1/imm-format-convert-tgt/session123/s2/2.png
    • /bucket1/imm-format-convert-tgt/session123/s2/[…].png
    • /bucket1/imm-format-convert-tgt/session123/s[…]/1.png
    • /bucket1/imm-format-convert-tgt/session123/s[…]/2.png
    • /bucket1/imm-format-convert-tgt/session123/s[…]/[…].png

注意:输入文档为 excel 类型时,会先根据 excel 的表格数,生产对应数量的文件夹,再在对应的文件夹下,按照预览页面大小生成对应数量的 png 文件。

输出类型为 pdf

直接生成 pdf 文档,例如:

  • /bucket1/imm-format-convert-tgt/session123/1.pdf

注意:转换 pdf 时,无论源文件是什么类型,都只会生成一个 pdf 文件。

参考

详细的 API 接口请参考 CreateOfficeConversionTask