本文介绍文字识别(ocr)类目下的PDF识别RecognizePdf的语法及示例。

功能描述

PDF识别能力可以对PDF上的文字进行结构化识别。

说明
  • 您可以进入在线咨询获取在线人工帮助。
  • 当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击立即试用对该能力进行更直观试用以及在线购买。
  • 阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们。

应用场景

  • 内容审核:可以结合内容审核能力对识别结果进行审核,检测文档中是否存在违规信息。
  • 企业报销: 可以对PDF格式的增值税发票结构化识别处理后实现报销场景下的自动化。

特色优势

  • 精准识别:智能算法升级,精准识别文件内容,保留原始排版。
  • 多语种识别:可识别中、英、中英混合等多语种内容。

接入指引

1. 注册阿里云账号:打开阿里云官网,在阿里云官网右上角,单击立即注册,按照操作提示完成账号注册。

2. 开通能力:请确保您已开通文字识别服务,若未开通服务请立即开通

3. 创建AccessKey:请确保您已创建AccessKey,如果您使用的是子账号AccessKey,您需要给子账号赋予AliyunVIAPIFullAccess权限,具体操作,请参见RAM授权

4. 在线调试(可选):您可以通过OpenAPI Explorer在线调试能力,查看完整的调用示例代码及SDK依赖信息,也可以下载完整的工程。

5. 开发接入步骤:

  • SDK总览中选择您要接入使用的SDK语言。
  • 在对应语言的SDK文档中找到AI类目为文字识别(ocr)的SDK包进行安装。
  • 参考文档中提供的示例代码进行适当修改后调用。

6. 示例代码:该能力常用语言的示例代码,请参见PDF识别示例代码

7. 客户端直接调用:该能力常用的客户端调用方式包括以下几种。

输入限制

  • 文件格式:PDF。
  • 文件大小:不超过10 MB。
  • 文档篇幅:PDF不超过5页。
  • URL地址中不能包含中文字符。

计费说明

关于PDF识别的计费方式及报价,请参见计费介绍

说明 下方调试接口为付费接口,如需免费体验调试请前往体验中心

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

请求参数

名称 类型 是否必选 示例值 描述
Action String RecognizePdf

系统规定参数。取值:RecognizePdf

FileURL String https://viapi-test.oss-cn-shanghai.aliyuncs.com/ocr/xxxx.pdf

文件URL地址。推荐使用上海地域的OSS链接,对于文件在本地或者非上海地域OSS链接的情况,请参见文件URL处理

返回数据

名称 类型 示例值 描述
RequestId String CD9A9659-ABEE-4A7D-837F-9FDF40879A97

请求ID。

Data Object

返回的结果数据内容。

Height Long 788

文档在图中旋转后的高度。

Width Long 1220

文档在图中旋转后的宽度。

OrgHeight Long 610

原图高度。

OrgWidth Long 394

原图宽度。

PageIndex Long 1

PDF页数。

Angle Long 0

PDF文件被旋转的角度。

WordsInfo Array of wordsInfo

文字信息。

Angle Long 0

被识别字段被旋转的角度。

Word String 发票代码:012002000211

文字信息。

Height Long 16

被识别字段的高度。

Width Long 205

被识别字段的宽度。

X Long 863

被识别字段左上角X坐标。

Y Long 46

被识别字段左上角Y坐标。

Positions Array of positions

文字信息位置。识别矩形框四个角的坐标顺时针排列,分别为左上XY坐标、右上XY坐标、右下XY坐标、左下XY坐标。

X Long 863

矩形框X坐标。

Y Long 43

矩形框Y坐标。

SDK参考

阿里云视觉AI文字识别类目下的PDF识别能力推荐使用SDK调用,支持多种编程语言,调用时请选择AI类目为文字识别(ocr)的SDK包,文件参数通过SDK调用可支持本地文件及任意URL,具体可参见SDK总览

示例代码

该能力常用语言的示例代码,请参见PDF识别示例代码

示例

请求示例

http(s)://ocr.cn-shanghai.aliyuncs.com/?Action=RecognizePdf      //更多关于访问域名(Endpoint)信息,请参见:https://help.aliyun.com/document_detail/143103.html
&FileURL=https://viapi-test.oss-cn-shanghai.aliyuncs.com/ocr/xxxx.pdf
&公共请求参数

正常返回示例

XML格式

HTTP/1.1 200 OK
Content-Type:application/xml

<RecognizePdfResponse>
    <RequestId>CD9A9659-ABEE-4A7D-837F-9FDF40879A97</RequestId>
    <Data>
        <WordsInfo>
            <Word>天津增值税</Word>
            <Angle>-88</Angle>
            <X>514</X>
            <Positions>
                <X>397</X>
                <Y>45</Y>
            </Positions>
            <Positions>
                <X>662</X>
                <Y>52</Y>
            </Positions>
            <Positions>
                <X>661</X>
                <Y>82</Y>
            </Positions>
            <Positions>
                <X>396</X>
                <Y>75</Y>
            </Positions>
            <Y>-69</Y>
            <Height>265</Height>
            <Width>29</Width>
        </WordsInfo>
        <WordsInfo>
            <Word>普通发票</Word>
            <Angle>0</Angle>
            <X>678</X>
            <Positions>
                <X>678</X>
                <Y>48</Y>
            </Positions>
            <Positions>
                <X>824</X>
                <Y>47</Y>
            </Positions>
            <Positions>
                <X>824</X>
                <Y>76</Y>
            </Positions>
            <Positions>
                <X>678</X>
                <Y>77</Y>
            </Positions>
            <Y>48</Y>
            <Height>29</Height>
            <Width>146</Width>
        </WordsInfo>
        <WordsInfo>
            <Word>发票代码:012002000211</Word>
            <Angle>0</Angle>
            <X>863</X>
            <Positions>
                <X>863</X>
                <Y>46</Y>
            </Positions>
            <Positions>
                <X>1068</X>
                <Y>46</Y>
            </Positions>
            <Positions>
                <X>1068</X>
                <Y>62</Y>
            </Positions>
            <Positions>
                <X>863</X>
                <Y>62</Y>
            </Positions>
            <Y>46</Y>
            <Height>16</Height>
            <Width>205</Width>
        </WordsInfo>
        <OrgWidth>610</OrgWidth>
        <Angle>0</Angle>
        <OrgHeight>394</OrgHeight>
        <Height>788</Height>
        <PageIndex>1</PageIndex>
        <Width>1220</Width>
    </Data>
</RecognizePdfResponse>

JSON格式

HTTP/1.1 200 OK
Content-Type:application/json

{
  "RequestId" : "CD9A9659-ABEE-4A7D-837F-9FDF40879A97",
  "Data" : {
    "WordsInfo" : [ {
      "Word" : "天津增值税",
      "Angle" : -88,
      "X" : 514,
      "Positions" : [ {
        "X" : 397,
        "Y" : 45
      }, {
        "X" : 662,
        "Y" : 52
      }, {
        "X" : 661,
        "Y" : 82
      }, {
        "X" : 396,
        "Y" : 75
      } ],
      "Y" : -69,
      "Height" : 265,
      "Width" : 29
    }, {
      "Word" : "普通发票",
      "Angle" : 0,
      "X" : 678,
      "Positions" : [ {
        "X" : 678,
        "Y" : 48
      }, {
        "X" : 824,
        "Y" : 47
      }, {
        "X" : 824,
        "Y" : 76
      }, {
        "X" : 678,
        "Y" : 77
      } ],
      "Y" : 48,
      "Height" : 29,
      "Width" : 146
    }, {
      "Word" : "发票代码:012002000211",
      "Angle" : 0,
      "X" : 863,
      "Positions" : [ {
        "X" : 863,
        "Y" : 46
      }, {
        "X" : 1068,
        "Y" : 46
      }, {
        "X" : 1068,
        "Y" : 62
      }, {
        "X" : 863,
        "Y" : 62
      } ],
      "Y" : 46,
      "Height" : 16,
      "Width" : 205
    } ],
    "OrgWidth" : 610,
    "Angle" : 0,
    "OrgHeight" : 394,
    "Height" : 788,
    "PageIndex" : 1,
    "Width" : 1220
  }
}

错误码

关于PDF识别的错误码,详情请参见常见错误码

安全声明

  • 请确保上传的图片或文件来源符合相应的法律法规。
  • 通过体验调试上传的临时文件有效期为1小时,在24小时后会被系统自动清理删除。