文档格式转换
使用文档格式转换功能,您可以将支持的输入文档类型转换为指定的输出文档类型,便于上层应用更好的使用文档内容。
功能
将支持的输入文档类型转换为指定的输入文档类型,格式转换的输出文档保存在请求中指定的OSS路径中。
目前支持的输入文档类型包含如下格式:
文字文档:DOC、DOT、WPS、WPT、DOCX、DOTX、DOCM、DOTM
演示文档:PPTX、PPT、POT、POTX、PPS、PPSX、DPS、DPT、PPTM、POTM、PPSM
表格文档:XLS、XLT、ET、ETT、XLSX、XLTX、CSV、XLSB、XLSM、XLTM
其他格式文档:PDF、LRC、C、CPP、H、ASM、S、JAVA、ASP、BAT、BAS、PRG、CMD、RTF、TXT、LOG、XML、HTM、HTML
目前支持的输出文档类型包含JPG、PNG、PDF、TXT、VECTOR格式。
根据请求中指定的输出文档类型会有不同的输出内容,输出内容示例的更多信息,请参见输出内容示例。
对于JPG、PNG和VECTOR格式的输出文档类型,根据输入文档类型是否为表格文档,输出内容不同。
当输入文档类型为表格文档时,按表格中的页签生成对应数量的文件夹后,再按预览页面大小生成对应数量的文件。
当输入文档类型为非表格文档(例如文字文档、演示文档)时,按文档样式每页生成一个文件。
对于PDF和TXT格式的输出文档类型,无论输入文档类型是否为表格文档,直接生成一个文件。
使用
文档格式转换所需的时间依赖于文档大小、文档页数、文档字数等因素,典型情况下在秒级可以完成请求,但是大文件、多页数、多字数的文档可能需要几十秒的时间。为了降低请求的应用等待时间,文档格式转换目前提供了异步请求接口。
您可以通过同步请求或者异步请求方式进行文档格式转换。
文档格式转换的同步请求接口为ConvertOfficeFormat。
文档格式转换的异步请求接口为CreateOfficeConversionTask。
输出内容示例
如下以请求中指定输出到OSS路径/bucket1/imm-format-convert-tgt/session123/为例说明转换为不同输出文档类型时的输出内容。
输出文档类型为JPG格式
当输入文档类型为表格文档时,输出内容示例如下所示。其中s1和s2为根据表格文档中的页签名称生成的文件夹。
/bucket1/imm-format-convert-tgt/session123/s1/1.jpg
/bucket1/imm-format-convert-tgt/session123/s1/2.jpg
/bucket1/imm-format-convert-tgt/session123/s1/[...].jpg
/bucket1/imm-format-convert-tgt/session123/s2/1.jpg
/bucket1/imm-format-convert-tgt/session123/s2/2.jpg
/bucket1/imm-format-convert-tgt/session123/s2/[...].jpg
当输入文档类型为非表格文档时,输出内容示例如下所示。
/bucket1/imm-format-convert-tgt/session123/1.jpg
/bucket1/imm-format-convert-tgt/session123/2.jpg
输出文档类型为PNG格式
当输入文档类型为表格文档时,输出内容示例如下所示。其中s1和s2为根据表格文档中的页签名称生成的文件夹。
/bucket1/imm-format-convert-tgt/session123/s1/1.png
/bucket1/imm-format-convert-tgt/session123/s1/2.png
/bucket1/imm-format-convert-tgt/session123/s1/[...].png
/bucket1/imm-format-convert-tgt/session123/s2/1.png
/bucket1/imm-format-convert-tgt/session123/s2/2.png
/bucket1/imm-format-convert-tgt/session123/s2/[...].png
当输入文档类型为非表格文档时,输出内容示例如下所示。
/bucket1/imm-format-convert-tgt/session123/1.png
/bucket1/imm-format-convert-tgt/session123/2.png
输出文档类型为PDF格式,无论输入文档类型是否为表格文档,输出内容均相同,输出内容示例为/bucket1/imm-format-convert-tgt/session123/1.pdf。
输出文档类型为TXT格式,无论输入文档类型是否为表格文档,输出内容均相同,输出内容示例为/bucket1/imm-format-convert-tgt/session123/1.txt。
输出文档类型为VECTOR格式
当输入文档类型为表格文档时,输出内容示例如下所示。其中meta.json文档是元数据,s1/meta.json是sheet1的元数据,s1/fp1.json、s1/fp2.json等文档是sheet1每页的渲染信息。
/bucket1/imm-format-convert-tgt/session123/doc/meta.json
/bucket1/imm-format-convert-tgt/session123/doc/s1/meta.json
/bucket1/imm-format-convert-tgt/session123/doc/s1/fp1.json
/bucket1/imm-format-convert-tgt/session123/doc/s1/fp2.json
/bucket1/imm-format-convert-tgt/session123/doc/s1/fp[...].json
/bucket1/imm-format-convert-tgt/session123/doc/s2/meta.json
/bucket1/imm-format-convert-tgt/session123/doc/s2/fp1.json
/bucket1/imm-format-convert-tgt/session123/doc/s2/fp2.json
/bucket1/imm-format-convert-tgt/session123/doc/s2/fp[...].json
当输入文档类型为非表格文档时,输出内容示例如下所示。其中meta.json文档是元数据,fp1.json、fp2.json等文档是每页的渲染信息,I/1、I/2等文档是渲染使用的具体内容。
/bucket1/imm-format-convert-tgt/session123/doc/meta.json
/bucket1/imm-format-convert-tgt/session123/doc/fp1.json
/bucket1/imm-format-convert-tgt/session123/doc/fp2.json
/bucket1/imm-format-convert-tgt/session123/doc/fp[...].json
/bucket1/imm-format-convert-tgt/session123/doc/I/1
/bucket1/imm-format-convert-tgt/session123/doc/I/2
/bucket1/imm-format-convert-tgt/session123/doc/I/[...]