表格信息抽取

功能简介

  • 表格信息抽取是基于深度学习的信息抽取自学习模型任务,可对版式相对固定的表格、表单的等类型数据有较好的效果,支持用户自定义抽取字段,通过平台可视化引导,完成数据标注和模型训练。

  • 在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超95%+。

  • 同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同类型数据的自动分类路由与高精度识别。

功能优势

  • 高精度,基于阿里云强大的预训练模型,经过调优训练的多版式模型识别准确率可达95%以上。

  • 少样本,仅需标注少量数据即可完成模型优化迭代,且模型具有泛化性。

  • 低门槛,无需代码开发,开箱即用,可自主配置规则,交互友好可控。

  • 高效率,提供智能预标注能力,多人协同标注耗时短。

应用场景

  • 支持列表(List)型表格和键值对(KV)型表格,适用于版式少量变化或可枚举的有线表格,半框表格,无框表格,需要结构化信息抽取的图片或单页PDF文件。

  • 模型有持续优化的需求,且有较多的数据样本可用于模型训练进行效果优化的表格表单数据,例如财税报销,资质审核,业务内部单据结构化识别等场景。

相关链接

操作指南

「表格信息抽取接入视频」参考:

创建「表格信息抽取」流程如下图,开始模型训练需要至少 20 个训练数据。

image

步骤一: 数据准备

进入「表格信息抽取」项目「数据中心-数据集」,用户可进行上传和管理模型任务所需数据。点击添加数据集进入上传界面,编辑数据集名称并上传相关表格业务数据。

说明

表格信息抽取自定义模型至少需要20张训练数据,才能获得相对较好的识别抽取效果。

提示建议:

  1. 数据准备有什么具体要求?

    1. 数据集可上传图片、文档、压缩包;

      1. 文档,支持不超过20M且后缀为pdf的文件,仅支持单页pdf;

      2. 图片,支持不超过10M且后缀为jpg、jpeg、png的文件;

      3. 压缩包,仅支持zip格式,且单zip包不超过20M。

    2. 单张图片最长边不超过8192像素,最短边不小于15像素。当长边超过1024像素时,长宽比不超过50 :1。

    3. 至少准备20-30份以上同类任务的数据用于模型训练与评测。

  2. 如何获得更好识别效果?

    1. 在产品功能范围的任务,数据质量越高,识别与抽取效果越好,字迹清晰端正的数据能有更高的准确率。

    2. 单字大小保持在10-50像素内,以获得较好的识别效果。

    3. 数据来源于真实业务场景,且类型与版式完整覆盖。

步骤二: 数据标注

数据标注划分为标注创建环节、标注环节、质检环节三大步骤;

标注任务创建

image

在「数据中心-标注任务」界面中,点击创建标注任务进入创建界面,编辑任务名称以及在上传数据中选择需要标注的数据集或直接本地上传,完成后进入题目设置

image

预标注开启OCR预标注识别后,在标注时画框之后会自动识别出框内文字内容,提高标注效率。

题目库:本任务中,已存在的题目,用户可通过查看题目库选择合适的题目用于标注任务的制定。

字段名称:识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。

字段类型:字段属性定义,选择合适的字段类型可提升字段识别端到端效果,支持选择通用字段或用户自行添加自定义字段。无需后处理选择常规字段类型即可。

提示建议:

  1. 标注任务如何上传数据?

    1. 支持本地上传和从数据集中选择;若您预先将数据上传至数据集,则可选择从数据集中选择,点击列表上方「添加数据集」,选择需要标注的数据集即可;

  2. 如何填写表格信息抽取?

    1. 「表格信息抽取」,支持「添加字段」和「添加表格」两种类型的题目。

    2. 「添加字段」即支持 KV 结构型字段,需要将需要标注的字段名称全部填入内容框中,并选择相应的字段类型;

    3. 「添加表格」即支持列表型表格,点击添加表格并输入相应的表头信息;

标注

进入「数据中心-标注任务」界面,选择创建完成的标注任务点击去标注,即进入数据标注界面,点击工具栏框选完成框选题目创建表格。待所有图片及其所有待识别字段都依次完成标注后,点击提交任务完成该部分标注。

重要

标注数据的质量(文字及位置)将直接影响模型训练的效果与评测指标。

image

如遇见错误数据或不可标注数据,可选择跳过该张图片。

提示建议:

  1. 框选工具如何使用?

    1. 对于文字较为平整的区域您可选择「四角框」进行框选,对于文字倾斜的区域您可选择「五角框」进行框选,选框尽可能贴合识别字段,可提高识别效果。

    2. 「OCR预标注」支持印刷体文字识别,暂不支持手写体识别。

  2. 如何创建表格?

    1. 创建表格适合LIST型表格表头值和识别列框选。

    2. 若意向创建表格则相应在题目设置部分应选择添加表格

    3. 创建表格操作细节:进入添加表格标签页后,需要点击创建表格选择对应的表格模板,其表头值会显示于右侧面板中;您需要点击表格识别列选框并在左侧图片中做识别字段框选,需要依次将每个表头值对应的每个识别字段框选完整。如上图所示。

  3. 如何框选题目?

    1. 框选题目适合KV型表格其KV字段框选。

    2. 若意向框选题目则相应在题目设置部分应选择添加字段

    3. 对于文字较为平整的区域您可选择「四角框」进行框选,对于文字倾斜的区域您可选择「六角框」进行框选,选框尽可能贴合待识别字段,可提高识别效果。

    4. 「OCR预标注」支持印刷体文字识别,暂不支持手写体识别。预标注自动识别的文字内容需仔细核对检查,保证标注正确性。

质检环节:进入「数据中心-标注任务」界面,选择已标注完成的任务点击「质检」,进入数据质检界面。您需要和核验该任务所有图片以及其字段是否标注完善,若标注有误则需做更改或者「驳回」操作,若标注无误则点击「提交」完成质检工作。

image

提示建议:

  1. 如何进行质检?

    1. 质检人员可直接使用标注工具对标注信息进行增删改操作。

    2. 质检人员选择「提交」则所有图片都完成质检工作。

  2. 质检过程中发现标注质量不高该怎么办?

    1. 选择对应的题目进行直接修改编辑。

    2. 选择驳回则退回标注人员重新标注处理。

步骤三:模型训练与测评

进入「模型中心」,点击创建模型进入模型创建界面,进行训练集标注结果和测试集标注结果选择,同时完成基本信息填写。创建模型后成功后自动进入模型训练。

image

「训练集」:用于训练模型的数据源,只能选择标注且质检完成的数据集作为训练集,且已被选为测试集的数据集不可再次选择。建议选择20张以上有效数据进行模型训练。

「测试集」:用于测试模型的数据源,只能选择标注且质检完成的数据集作为测试集,且已被选为训练集的数据集不可再次选择。

「自动划分1/10训练集作为测试集」:若打开此按钮,则无需手动再次选择测试集,系统直接自动划分1/10训练集作为测试集。如打开自动划分功能前已存在完成上传测试集,打开开关后,系统将忽略此前手动上传的测试集数据。

image.png

image.png

模型训练费用及预估时长。根据任务类型及数量变动,以界面显示数字为准。详情可见OCR文档自学习计费

「训练时长」:由数据量、标注情况、机器资源等多种因素共同决定。例如采用V100机器,20张图片数据量约需1小时训练时长,200张图片数据量约需2小时训练时长。

提示建议:

  1. 您需要校验「测试集」和「训练集」字段,各数据集字段内容需要保持一致。

  2. 「模型训练」配置环节支持选择字段对应的字段类型,或根据业务需求删除字段,以提高训练精准度。

  3. 建议数据量越大,标注越精确,模型训练和评测的效果越好。

  4. 配置合适的字段类型,提升端到端准确率。

image

image

算法评估评价指标评:包括整体指标、字段指标、表格指标三个维度。

整体指标

  • 准确率:算法模型平均准确率(Accuracy),未经规则后处理修正。即测试集中被正确预测的标注框占所有标注框(内容+位置)的比例。image

  • 精确率:算法模型平均精确率(Precision),未经规则后处理修正,为被识别为正类别的样本中,真实为正类别的比例,即测试集中被识别出来的字段有多少是与标注框一致(内容+位置)的比例。image

  • 召回率:算法模型平均召回率(Recall),未经规则后处理修正,为所有真实为正类别的样本中,被正确识别为正类别的比例,即测试集中被正确识别的标注框(内容+位置)的比例。

image

字段指标

  • 精确率:算法模型单字段精确率(Precision),未经规则后处理修正,为被识别为正类别的样本中,真实为正类别的概率,即测试集中被识别为该字段占该类字段真实标注框(内容+位置)的比例。image

  • 召回率:算法模型单字段召回率(Recall),未经规则后处理修正,为所有真实为正类别的样本中,被正确识别为正类别的概率,即测试集中被正确识别的该类标注框(内容+位置)的比例。image

  • F1值:综合评价指标(F1-Measure),为精确率和召回率的加权调和平均,常用于评价分类模型的好坏。image

表格指标

  • 精确率:算法模型当前类型字段精确率(Precision),未经规则后处理修正,为被识别为正类别的样本中,真实为正类别的概率,即当类表格测试集中正确预测为该类字段占该类字段标注框(内容+位置)的比例。image

  • 召回率:算法模型当前类型字段召回率(Recall),未经规则后处理修正,为所有真实为正类别的样本中,被正确识别为正类别的概率,即当类表格测试集中被正确识别的该类标注框(内容+位置)的比例。image

  • F1值:综合评价指标(F1-Measure),为精确率和召回率的加权调和平均,常用于评价分类模型的好坏。image

调优建议:

如何进行模型调优?

  1. 明确任务类型符合功能范围,以及数据质量尽可能清晰端正。

  2. 数据标注需要将识别字段逐一标注完整,标注框尽量贴合字段文字。也可以调整字段类型或高级选项提高准确率。

  3. 数据量越大,模型训练效果越好。一般模型数据量达100+份,会有一个较好的表现。

  4. 数据类型和版式分布符合真实业务场景,只有训练过的数据类型和版式才能有较好的识别效果。

步骤四: 模型部署

模型训练完成后,进入「模型中心-模型详情」,点击页面底部「去部署」按钮,即可开始模型部署。模型部署需要一定时间,部署成功后即可通过在线体验可视化测试模型效果或直接使用API进行在线服务调用。

image.png

说明

发布并部署模型服务后,可参考文档API概览使用服务,也可进入「在线使用」界面测试模型效果。

重要

OCR文档自学习自2023年8月23日开启全面商业化,模型训练按时长计费,模型推理调用按调用量计费,详情可见OCR文档自学习计费

小工具-题目库

题目库:应用于「题目设置」环节,预先创建标注任务字段,此题目支持多次引用;即多标注任务若所需标注字段相同,可通过题目库选择,减少多次编辑题目人力成本并降低题目编辑错误可能性。

说明

若重新修改题目库,不会对已经发起的标注任务或模型产生影响。