本文介绍如何创建并使用自定义OCR模板,根据需要识别的图片模板,对各种类型的票据、证件等图片进行文字识别。

功能描述

自定义OCR模板帮助您提取自定义图片中的结构化文字信息。使用过程中您需要先自定义一个图片模板,然后再调用OCR识别接口进行检测。

如果您需要识别的图片不在已有的结构化OCR支持范围内,您可以使用自定义OCR模板。

进行操作前,请先了解以下基本概念。
  • 模板:为格式和包含信息完全相同的一类图片生成的一种规范版式。

    进行图片文字识别前,您需要在内容安全控制台手动创建模板。每个模板都有一个唯一的ID作为其标识;在调用OCR检测接口时,需要传入模板ID作为请求参数。

  • 参考字段:用于定位模板位置的固定字段。

    参考字段的选取会影响图片的识别准确率。参考字段务必选取位置和内容都不会变化的文字内容。单个参考字段内的文字不可以换行,建议您选取4个以上的参考字段。

  • 识别字段:需要识别的内容字段。

    设置识别字段时,需要给字段设置key值,最终识别结果会以key:识别内容格式返回。

操作步骤

参照以下步骤创建和使用自定义OCR模板:
  1. 登录云盾内容安全控制台
  2. 在左侧导航栏单击设置
  3. OCR模板页签,单击创建模板按钮。

  4. 创建模板页面,输入模板名称,并单击选择文件,选择一张待识别的图片作为样本上传。
    关于作为模板的样本图片,请注意以下要求:
    • 使用.png、.jpg、.jepg、.bmp、.gif格式。
    • 大小在1KB到10M之间,分辨率在320*320像素到4096*4096像素之间。
    • 尽量摆放端正平整,不存在模糊、过度曝光、阴影等不良情况。
    • 尽量突出需要识别的部分。建议您手动剪裁掉不需要部分,以提高识别准确率。
    • 至少存在4个模板参照字段,且尽量分散在图片的边缘(越分散越好),用于准确定位模板。
    • 选取的模板参照字段、待识别字段的高度不小于20像素。


  5. 设置参考字段。
    1. 单击设置参考字段

    2. 单击新增字段并用绿色矩形标识框框选图片上位置固定不变的单行参考字段。
      说明 参照字段区域务必框选单行文字,且尽量将文字包裹完整。


    3. 重复上述步骤,至少设置4个不同的参考文字区域后,单击保存
  6. 设置识别字段。
    1. 单击设置识别字段

    2. 单击新增字段并用绿色矩形标识框框选待识别的单行文字,为框选中的内容设置一个Key值,作为识别结果的标识。

    3. 重复上述步骤,添加完所有待识别内容后,单击保存
      说明 如果要识别的字段有多行内容,建议您分别框选单行文字,并为它们设置相同的Key值。算法会将多行Key值相同的字段以框选顺序组合返回。


  7. 完成模板创建后,单击选择要应用的模板,然后单击复制模板ID

  8. 参考OCR同步检测,调用检测接口进行图片OCR识别。
说明 如果您对模板制作和OCR识别有任何疑问,请通过工单联系我们进行协助。