全部产品

自学习平台

更新时间:2020-09-25 11:23:14

平台介绍

自学习平台主要针对文档、表单、票据、卡证等类型图片,对图片中的关键要素进行提取。 用户可以使用自学习平台对图片进行模板配置和数据标注,经过训练、评测。模板发布后,可获得对应的模板ID,在编辑器中可使用相关sdk或模块进行图片信息的结构化提取。

适用范围

适用于相同类型的图片,即图片版式基本保持一致。 图片版式差别较大的(如各个医院的医疗发票)不在目前自学习平台的产品范畴内。

使用步骤

自学习平台使用步骤主要分为如下几步:

1.模板配置。通过对一张具有代表性的图片进行key/value的规则属性配置,至少配置4对kv对,形成初始化的模板;作为配置的图片最好选择清晰、无遮挡、无反光的图片更有利于模板的配置。

1

2.创建数据集。第二步需要创建数据集,上传至少30张同类图片作为训练集,至少10张图片进行测试集。上传图片后,分别对上传的图片进行标注,通过标注训练图集上的value值,形成一批可用的训练数据。这些已标注好的数据会按比例分成训练数据和评测数据。

2

3.模板训练。模板训练是基于深度学习算法进行的机器自学习过程,系统会根据标注数据自动强化模板的识别率,提高模板的容错性。训练集的数据越多对模板训练的效果就越佳。训练是个反复的过程,可以分多个批次进行训练,每个批次建议上传更多的图片进行标注以达到自学习的目的。

3

4.模板评测与发布。模板评测是用于对经过训练的模板进行效果评测打分的步骤。在每个训练批次中可实时查看效果评估对比。评测指标分为OCR识别率和KV字段识别率,OCR识别率是文字本身的识别效果,KV字段识别率是指模板在评测过程中所有字段的平均识别结构。通常情况下,KV字段识别率/OCR字段识别率>90%,是较为可用的状态,当然用户可根据自己的标准进行效果评估。根据评测结果,用户可以选择最为理想的训练版本作为发布版本,并发布上线。发布成功后即可获得模板ID,在RPA的编辑器中,可使用相关的模块或SDK通过模板ID进行图片信息的结构化识别。

注意,已经发布的模板无法继续进行迭代训练,建议当识别率满足预期后再进行模板发布操作。
4

名词解释

名词 解释说明
固定格式模板 指图片中的Key的名称、key之间的空间位置相对固定的。如新版营业执照、增值税发票、身份证这类。
多样式模板 指图片中key的名称、key之间的空间位置关系差异较大的,即属于多样式模板。如各个医院的医疗发票、全国各地的房产证等。此类图片不适用于KV结构模板。
模板图片 模板图片是首张用于配置的示例图片,模板图片需要确保字迹清晰,图像端正、无遮挡。
key key是图片上所需的关键键值的名称。如身份证中,“姓名”为key。
value value是所选的key对应的字段值。如身份证中,“支小宝”就是value。
value属性 value属性是系统根据文字的实体信息给出的属性值,会有一些纠错的逻辑。目前value属性值包含常见的8大属性集合。
标注数据 标注数据是指将图片上的文字通过标注的方式人工记录下正确值。 用户可使用框选更为便利地帮助标注工作。
识别质量分 识别质量分是指根据文字识别的结果倒推判断图像质量的行为。低质量分的图片可认为识别质量较差,不利于进行模板训练。因此尽量选择高质量图片进行数据标注(质量分>=70分)。
OCR识别率 具体某个字段纯OCR识别的结果在该字段检索中的文字匹配率(用于验证底层ocr效果好不好)
KV字段识别率 指由模板识别的结果与用户录入的结果进行比对,正确图片的数量/所有图片(用于验证模板配置的效果)
模板可用性指标 通常若KV字段识别率/OCR识别率>80%,则认为模板配置可行


具体操作

模板管理-模板配置

点击创建模板。
5
1.上传图片,并输入模板名称。
6
2.上传好后即进入模板编辑页面,此时需要配置图中所需的字段组合,在图片中框选key和value分别对应的位置。下图以普通发票为例。
7
需要注意的是:
a. 使用KV结构模板至少需要标注4个有效字段
b. 配置完后检查是否将所有字段已经配置到位
当所有步骤都完成后点击创建模板即可完成初始模板的创建。

创建数据集并标注

填写数据集名称并上传训练数据和测试数据,训练数据用于进行模板识别的训练,测试数据用于对模型进行效果评测。
8
点击创建完成数据集的上传,此时可以进行数据标注
9
在数据标注环节,我们需要对辅助识别的结果进行检查,如果识别不准确需要重新框选value值,确认无误后点击下一张即可。完成全部训练图片和测试图片的标注后,点击“确认标注正确”,完成数据集的标注。
10

模板训练

当可用的标注数据量达到一定值后,可回到模板管理页面进行模板的训练,点击训练按钮,并创建第一个训练批次。

11
等待几分钟训练时间后,系统将执行评测统计,并返回该批次的评测结果。

12
点击查看详情,可以查看识别错误的具体图片内容。通常首次训练结果和用户配置的模板关系较大,如果发现模板配置有明显错误(如属性填写错误等)可重新编辑模板,并在数据集上传,在多批次训练的过程中完成视觉自学习。
13
添加数据并进行标注后,新的训练版本会对所有的图片进行重新训练,是覆盖式训练。
每个版本都会直观地给出与上个训练版本地增长或者降低情况,我们可根据需求选择满意的模板效果进行发布。
得到满意的训练结果后,可以进行模板的发布
14
发布完成后,可以得到模板ID,在RPA的编辑器中,可以以ID为标识对模板进行调用,完成图片的结构化识别。
除模板管理外,控制台中还提供了两个菜单,分别是数据管理和字段属性管理。

数据管理

可以在这个菜单中对数据集进行编辑,增加删除数据以及查看数据的标注情况。
15

字段属性

在这个界面中,可以对字段属性进行设置。字段属性是对字段规则的规定,可以帮助我们提升模板的识别效果。
16