使用文档格式转换功能,您可以将支持的输入文档类型转换为指定的输出文档类型,便于上层应用更好的使用文档内容。

功能

将支持的输入文档类型转换为指定的输入文档类型,格式转换的输出文档保存在请求中指定的OSS路径中。
  • 目前支持的输入文档类型包含如下格式:
    • 文字文档:DOC、DOT、WPS、WPT、DOCX、DOTX、DOCM、DOTM
    • 演示文档:PPTX、PPT、POT、POTX、PPS、PPSX、DPS、DPT、PPTM、POTM、PPSM
    • 表格文档:XLS、XLT、ET、ETT、XLSX、XLTX、CSV、XLSB、XLSM、XLTM
    • 其他格式文档:PDF、LRC、C、CPP、H、ASM、S、JAVA、ASP、BAT、BAS、PRG、CMD、RTF、TXT、LOG、XML、HTM、HTML
  • 目前支持的输出文档类型包含JPG、PNG、PDF、TXT、VECTOR格式。

根据请求中指定的输出文档类型会有不同的输出内容,输出内容示例的更多信息,请参见输出内容示例

  • 对于JPG、PNG和VECTOR格式的输出文档类型,根据输入文档类型是否为表格文档,输出内容不同。
    • 当输入文档类型为表格文档时,按表格中的页签生成对应数量的文件夹后,再按预览页面大小生成对应数量的文件。
    • 当输入文档类型为非表格文档(例如文字文档、演示文档)时,按文档样式每页生成一个文件。
  • 对于PDF和TXT格式的输出文档类型,无论输入文档类型是否为表格文档,直接生成一个文件。
fig_输出

使用

文档格式转换所需的时间依赖于文档大小、文档页数、文档字数等因素,典型情况下在秒级可以完成请求,但是大文件、多页数、多字数的文档可能需要几十秒的时间。为了降低请求的应用等待时间,文档格式转换目前提供了异步请求接口。

您可以通过同步请求或者异步请求方式进行文档格式转换。

输出内容示例

如下以请求中指定输出到OSS路径/bucket1/imm-format-convert-tgt/session123/为例说明转换为不同输出文档类型时的输出内容。

输出文档类型为JPG格式
  • 当输入文档类型为表格文档时,输出内容示例如下所示。其中s1和s2为根据表格文档中的页签名称生成的文件夹。
    • /bucket1/imm-format-convert-tgt/session123/s1/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/s1/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/s1/[...].jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/2.jpg
    • /bucket1/imm-format-convert-tgt/session123/s2/[...].jpg
  • 当输入文档类型为非表格文档时,输出内容示例如下所示。
    • /bucket1/imm-format-convert-tgt/session123/1.jpg
    • /bucket1/imm-format-convert-tgt/session123/2.jpg
输入文档类型为PNG
  • 当输入文档类型为表格文档时,输出内容示例如下所示。其中s1和s2为根据表格文档中的页签名称生成的文件夹。
    • /bucket1/imm-format-convert-tgt/session123/s1/1.png
    • /bucket1/imm-format-convert-tgt/session123/s1/2.png
    • /bucket1/imm-format-convert-tgt/session123/s1/[...].png
    • /bucket1/imm-format-convert-tgt/session123/s2/1.png
    • /bucket1/imm-format-convert-tgt/session123/s2/2.png
    • /bucket1/imm-format-convert-tgt/session123/s2/[...].png
  • 当输入文档类型为非表格文档时,输出内容示例如下所示。
    • /bucket1/imm-format-convert-tgt/session123/1.png
    • /bucket1/imm-format-convert-tgt/session123/2.png

输出文档类型为PDF,无论输入文档类型是否为表格文档,输出内容均相同,输出内容示例为/bucket1/imm-format-convert-tgt/session123/1.pdf。

输出文档类型为TXT,无论输入文档类型是否为表格文档,输出内容均相同,输出内容示例为/bucket1/imm-format-convert-tgt/session123/1.txt。

输出文档类型为VECTOR
  • 当输入文档类型为表格文档时,输出内容示例如下所示。其中meta.json文档是元数据,s1/meta.json是sheet1的元数据,s1/fp1.json、s1/fp2.json等文档是sheet1每页的渲染信息。
    • /bucket1/imm-format-convert-tgt/session123/doc/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s1/fp[...].json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/s2/fp[...].json
  • 当输入文档类型为非表格文档时,输出内容示例如下所示。其中meta.json文档是元数据,fp1.json、fp2.json等文档是每页的渲染信息,I/1、I/2等文档是渲染使用的具体内容。
    • /bucket1/imm-format-convert-tgt/session123/doc/meta.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp1.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp2.json
    • /bucket1/imm-format-convert-tgt/session123/doc/fp[...].json
    • /bucket1/imm-format-convert-tgt/session123/doc/I/1
    • /bucket1/imm-format-convert-tgt/session123/doc/I/2
    • /bucket1/imm-format-convert-tgt/session123/doc/I/[...]