OCR&文档自学习FAQ

本文介绍OCR&文档自学习的一些常见FAQ。

如何将其他账号成员设置为项目成员

您在创建或编辑项目时可设置项目成员角色,可将其他已创建账号添加为项目管理员标注人员质检人员,添加后该成员可看到并参与项目协作。设置路径:文档自学习平台->创建或编辑任务页面->角色设置->选择账号。

模板项目支持项目管理员角色,模型支持项目管理员标注人员质检人员三类角色。

  • 项目管理员:账号被加入项目管理员后,该账号可查看和编辑该项目。

  • 标注人员:账号被加入标注人员后,该账号可查看该项目,可编辑标注任务操作。

  • 质检人员:账号被加入质检人员后,该账号可查看该项目,可编辑质检任务操作。

创建标注任务后,任务分组规则是什么

对于长文档信息抽取项目,一个文件(PDF或图片)会被分为一条主任务,若一个PDF中有多页则会划分为多条子任务,每条任务依次进行标注和质检。对于表格信息抽取或单证票据信息抽取项目,多个文件(PDF或图片)会被划分为一条主任务,其中单个文件为其不同子任务,每条任务依次进行标注和质检。

自定义模板和信息抽取模型分别适用于哪些场景

  • 自定义模板:仅通过一张样本图配置,无需进行模型训练,适用于数据版式固定,对字段抽取准确率要求不高的业务冷启动快速验证阶段。

  • 信息抽取模型:标准的标注数据-模型训练流程,通过可视化的模型标训完成业务专属的模型定制,适用于数据版式相对固定或可枚举,样本数量较为充足,对信息抽取准确率要求较高的业务稳定阶段。

您可准备好数据再进行体验与试用。具体内容,请参见OCR文档自学习平台

KV模板字段为何没有识别出来

如果字段识别效果不理想,您可以重新调节字段选框,选框尽可能将字段区域覆盖完整,或选择相应的字段类型和更多高级选项,以提高识别效果;如有特殊格式例如跨格,其识别效果可能会受到影响。

模型识别效果如何提升

若评测结果整体准确率较低,您需要检查数据类型和质量、数据标注、数据量以及数据完整度。

  1. 数据类型需要符合项目功能范围,以及数据质量尽可能清晰端正。

  2. 数据标注需要将识别字段逐一标注完整,标注框尽量贴合字段文字。也可以调整字段类型或高级选项提高精准度。

  3. 数据量越大,模型训练效果越好。一般情况下,模型数据量达到200份时,可能会得到一个较高的精准度。

  4. 数据类型和版式应该针对样本分布覆盖完整,只有训练过的数据类型和版式才能有较好的识别效果。

模板调优建议

  1. 测试结果出现图片无法匹配模板的情况怎么办?

    1. 确认上传的测试图片与模板图片是否为同一版式。

    2. 调整参照字段框选范围或更换参照字段,以提升模板匹配准确率。

  2. 测试结果中出现识别结果不完整的情况怎么办?

    1. 可调整识别区框选范围,框尽量覆盖该字段文字可能出现的最大范围,以完善此类情况。

    2. 检查字段类型的选择,例如数字识别成字母,则可调整此识别字段的字段类型。

    3. 检查字段的高级配置。

  3. 测试结果中出现识别字段错误怎么办?

    1. 检查字段类型的选择,例如将常规调整为数字类型,可更加精准的识别字段。

    2. 检查字段的高级配置。

  4. 测试结果选框偏移怎么办?

    1. 检查参照字段或识别字段框选是否符合要求。

    2. 检查模板图片是否符合要求。

长文档信息抽取如何换行标注

步骤一:分别标注跨行对应的部分,并给予它们正确的题目。

步骤二:按住「shift键」,点击此前的两个标注框的边。

步骤三:松开「shift键」,然后自动会把跨行数据合并,选择对应的题目。

步骤四:点击确定,右边就看到一个“组合”,单独的小框无需删除。

正则表达式如何编写

目前平台自定义KV模板和自定义表格模板项目识别字段支持配置正则表达式。

高级配置中正则表达式支持用户通过字符串定义替换前和替换后的文字,示例如下:

备注

输入

原内容

替换内容

结果

替换字符串

abcdef

abc

hello

hellodef

去掉多余空格

ab de f

\s+

ab de f

倒数第二位数字前加小数点

12345

(\d+)(\d{2})$

\1.\2

123.45

去除冒号前内容

Mobile:12345678

.+:(\d+)

\1

12345678

日期格式转换

2023-2-3

^(\d+)-(\d+)-(\d+)$

\1年\2月\3日

2023年2月3日

模型题目库修改生效范围

模型题目库支持修改后再引用至新的标注任务使用,但题目库修改后不会影响此前已经生成的标注任务。

平台支持创建模型时修改题目字段类型,修改后会在题目库里生成新的题目系列。

模型六边形标注是否支持OCR预识别

模型六边形标注工具不支持OCR预识别,使用六边形框选后需要手动输入识别文字。矩形框标注工具支持OCR预识别,您仍需要校验识别文字内容,保证选框文字和识别文字内容一致,可提高识别准确度。

重要

OCR预识别暂不支持手写体,仅支持印刷文字。

训练时长如何计算

训练时长由数据量、标注情况、机器资源等多种因素共同决定。

  • 单证票据信息抽取:例如采用V100机器,20张图片数据量约需1.5小时训练时长,200张图片数据量约需3小时训练时长。

  • 表格信息抽取:例如采用V100机器,20张图片数据量约需1小时训练时长,200张图片数据量约需2小时训练时长。

  • 长文档信息抽取:如采用V100机器,6万字数约需1分钟训练时长。

说明

如果一直显示训练中或者长时间训练,可联系售后钉钉群:26560014923。

自定义KV模板为何调用接口提示未发布

您需要发布模板才可在平台使用模板服务或调用API接口,特别是在重新编辑模板后需要再次发布,使用模板服务需要保证模板处于已发布状态。

自定义KV模板参考字段可以不配置吗

针对模板服务大部分的数据可以不配置参考字段,也可达到比较好的识别效果。如果您的模板服务识别效果不佳,您也可尝试去除参考字段配置重新评测。

针对部分版式较复杂、参考字段较少、文字较多的数据类型,仍然需要标注参考字段以优化识别准确率。