本文介绍文字识别(ocr)类目下的文档结构化还原识别TrimDocument的语法及示例。

服务说明

文档结构化还原识别能力将于2023年6月30日起停止API服务,后续不再支持新老用户开通接入及调用服务。老用户如果对文档结构化还原识别服务使用有疑问,可通过搜索钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。

功能描述

文档结构化还原识别能力可以对输入文档内容进行解析,输出结构化样式(HTML或者JSON)。

说明
  • 您可以进入在线咨询获取在线人工帮助。
  • 当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击立即试用对该能力进行更直观试用以及在线购买。
  • 阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。

输入限制

  • 文档类型:当前仅支持PDF类型。
  • 文档大小:不超过10 MB。
  • 文档篇幅:PDF不超过2页。
  • URL地址中不能包含中文字符。

调用步骤

该能力为异步能力,需分两步进行调用。

第一步调用TrimDocument接口提交任务,请求成功后,得到一个任务ID。

第二步调用GetAsyncJobResult接口查询结果,根据任务ID查询任务执行状态和结果。如果任务还在处理中,可稍等一段时间后再进行查询。

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

请求参数

名称 类型 是否必选 示例值 描述
Action String TrimDocument

系统规定参数。取值:TrimDocument

FileURL String https://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/ocr/TrimDocument/TrimDocument1.pdf

输入文档URL地址。推荐使用上海地域的OSS链接,对于文件在本地或者非上海地域OSS链接的情况,请参见文件URL处理

FileType String pdf

输入文档类型,目前仅支持pdf。

OutputType String html

识别结果输出类型,体现在结果中content字段的值。可选json或html。

返回数据

名称 类型 示例值 描述
RequestId String E700C1C1-57E4-413A-9987-56A5A0443CE4

请求ID。

Data Object

返回的结果数据内容。

该数据需要在异步任务执行成功后,通过调用GetAsyncJobResult接口,对其Result字段进行JSON反序列化之后得到。

Content String <div > <h2 > 2017 年 3 月 40 多家陶企上榜失信被执行人名单 </h2><div > 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 </div>

解析文档得到的具体结构化内容。

Message String 该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。

提交异步任务后的提示信息。

查询结果

该接口为异步接口,当前并未返回真实的请求结果,您需要通过返回的RequestId调用GetAsyncJobResult接口来获取该接口的真实请求结果。详情请参见GetAsyncJobResult

SDK参考

阿里云视觉AI文字识别类目下的文档结构还原识别能力推荐使用SDK调用,支持多种编程语言,调用时请选择AI类目为文字识别(ocr)的SDK包,文件参数通过SDK调用可支持本地文件及任意URL,具体可参见SDK总览

示例代码

该能力常用语言查询异步任务结果的示例代码,请参见查询异步任务结果示例代码

示例

请求示例

http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=TrimDocument      //更多关于访问域名(Endpoint)信息,请参见:https://help.aliyun.com/document_detail/143103.html
&FileType=pdf
&FileURL=https://viapi-test.oss-cn-shanghai.aliyuncs.com/viapi-3.0domepic/ocr/TrimDocument/TrimDocument1.pdf
&OutputType=html
&<公共请求参数>

正常返回示例

XML格式

HTTP/1.1 200 OK
Content-Type:application/xml

<TrimDocumentResponse>
    <RequestId>E700C1C1-57E4-413A-9987-56A5A0443CE4</RequestId>
    <Message>该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。</Message>
</TrimDocumentResponse>

JSON格式

HTTP/1.1 200 OK
Content-Type:application/json

{
  "RequestId" : "E700C1C1-57E4-413A-9987-56A5A0443CE4",
  "Message" : "该调用为异步调用,任务已提交成功,请以requestId的值作为jobId参数调用同类目下GetAsyncJobResult接口查询任务执行状态和结果。"
}

返回示例补充说明

//查询结果:请求示例
http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=GetAsyncJobResult
&JobId=E75FE679-0303-4DD1-8252-1143B4FA8A27
&<公共请求参数>

//查询结果:返回示例
{
  "RequestId" : "43A0AEB6-45F4-4138-8E89-E1A5D63200E3",
  "Data" : {
    "Status" : "PROCESS_SUCCESS",
    "JobId" : "186AC396-0EEC-46F1-AAA1-BF3585227427",
    "Result" : "{\"Content\":\"<div > <h2 > 2017 年 3 月 40 多家陶企上榜失信被执行人名单 </h2><div > 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 </div>"}"
  }
}

//Result反序列化
{
  "Content" : "<div > <h2 > 2017 年 3 月 40 多家陶企上榜失信被执行人名单 </h2><div > 1 月 7 日,陶卫网记者根据最高人民法院及各地法院发布的失信被执行人信息统计,2019 年 12 月全国各地有 112 家陶瓷企业被列入“失信被执行人”名单,名单涉及 21 个省(市)。此次名单中,广东省的失信陶企多达 28 家。 </div>",
}

错误码

关于文档结构化还原识别的错误码,详情请参见常见错误码

安全声明

  • 请确保上传的图片或文件来源符合相应的法律法规。
  • 通过体验调试上传的临时文件有效期为1小时,在24小时后会被系统自动清理删除。