表格智能解析
文档介绍了表格智能解析API的调用方式,调用前,请先阅读API使用指南。
表格智能解析接口可以进行表格抽取和理解,从PDF或图片格式的表格文档中提取出表格样式、表格内容、文本KV、表格KV等信息。
表格智能解析接口为异步接口,需要先调用表格智能解析异步提交服务SubmitTableUnderstandingJob接口进行异步任务提交,然后调用表格智能解析结果查询服务GetTableUnderstandingResult接口进行结果轮询,建议每10秒轮询一次,最多轮询10分钟,如果10分钟还未查询到处理完成结果,则视为处理超时。
当异步任务处理提交后,用户可以在处理结束后的24小时之内查询处理结果,超过24小时后将无法查询到处理结果。
步骤一:调用表格智能解析异步提交服务
异步提交服务支持本地文件和URL文件两种方式:
URL上传的异步提交服务接口为:SubmitTableUnderstandingJob接口。
本地文件上传的异步提交服务接口为:SubmitTableUnderstandingJobAdvance接口。
请求参数
名称 | 类型 | 必填 | 描述 | 示例值 |
FileUrl | string | 是 | 以文档URL方式时使用。 单个文档(支持100页以内、100 MB以内的PDF文档,支持20 MB以内的单张图片)。 | https://example.com/example.pdf |
FileUrlObject | stream | 是 | 以本地文件上传方式调用接口时使用。 单个文档(支持100页以内、100 MB以内的PDF文档,支持20 MB以内的单张图片)。 | 本地文件生成的FileInputStream |
FileName | string | 否 | 文件名,需带文件类型后缀。与fileNameExtension二选一 | example.pdf |
FileNameExtension | string | 否 | 文件类型,与fileName二选一。支持类型:pdf、jpg、jpeg、png、bmp、gif |
支持的文档格式:pdf和图片,图片支持jpg、jpeg、png、bmp、gif。
返回参数
名称 | 类型 | 描述 | 示例值 |
RequestId | string | 请求唯一ID | 43A29C77-405E-4CC0-BC55-EE694AD0**** |
Data | object | 返回数据 | {"Id": "docmind-20220712-b15f****"} |
+id | string | 业务订单号,用于后续查询接口进行查询的唯一标识 | docmind-20220712-b15f**** |
Code | string | 状态码 | 200 |
Message | string | 详细信息 | message |
示例
本接口支持本地文档上传和传入文档URL这两种调用方式。
以Java SDK为例,本地文档上传调用方式的请求示例代码如下,调用submitTableUnderstandingJobAdvance接口,通过fileUrlObject参数实现本地文档上传。
import com.aliyun.docmind_api20220711.models.*;
import com.aliyun.teaopenapi.models.Config;
import com.aliyun.docmind_api20220711.Client;
import com.aliyun.teautil.models.RuntimeOptions;
import java.io.File;
import java.io.FileInputStream;
public static void submit() throws Exception {
Config config = new Config()
// 前面准备好的您的AccessKey ID
.setAccessKeyId(accessKeyId)
// 前面准备好的您的AccessKey Secret
.setAccessKeySecret(accessKeySecret);
// 访问的域名,支持ipv4和ipv6两种方式,ipv6请使用docmind-api-dualstack.c