长文档信息抽取自定义模型训练全流程指南-文档智能-阿里云

功能简介

长文档信息抽取是基于深度学习的信息抽取自学习模型任务，支持用户自定义抽取字段，通过平台可视化引导，完成数据标注和模型训练，实现对非结构化、多版式的文档的高精度抽取。
在图像质量较好情况下，通过100+训练样本标注，调优后模型识别准确率可超85%+。

功能优势

高精度，基于阿里云强大的预训练模型，经过调优训练的多版式模型识别准确率可达85%以上。
少样本，仅需标注少量数据即可完成模型优化迭代，且模型具有泛化性。
低门槛，无需代码开发，开箱即用，可自主配置规则，交互友好可控。
高效率，提供智能预标注能力，多人协同标注耗时短。

应用场景

高性能模型：适用于文档样式/格式较为简单的文档。例如仅包含标题、段落的文档；支持的文档格式包括PDF/图片。适用于证明、文书、文件、信件、公告等行业场景。
混合版面模型：适用于文档样式/格式较为丰富的文档。例如包括标题，段落，表格、表单等内容的文档；支持的文档格式包括PDF/图片。适用于合同、标书、保单、工程表单等行业场景。
模型有持续优化的需求，且有较多的数据样本（大于20条）可用于模型训练进行效果优化的长文档数据。

操作指南

「长文档信息抽取接入视频」参考：

创建「长文档信息抽取」流程如下图，需要超过20张图片进行训练才可完成模型创建。

步骤一：数据准备

在「数据中心-数据集」中，用户可进行上传和管理模型任务所需数据。点击添加数据集进入上传界面，编辑数据集名称并上传相关业务数据。

说明

长文档信息抽取自定义模型至少需要50张训练数据，才能获得相对较好的识别抽取效果。

提示建议：

数据准备有什么具体要求？
1. 数据集可上传图片、文档、压缩包；
  1. 文档，支持不超过20M且后缀为pdf的文件，建议单pdf文件不超过5页；
  2. 图片，支持不超过10M且后缀为jpg、jpeg、png的文件；
  3. 压缩包，仅支持zip格式，且单zip包不超过20M。
2. 单张图片最长边不超过8192像素，最短边不小于15像素。当长边超过1024像素时，长宽比不超过50 ：1。
3. 至少准备50-60份以上同类任务的数据用于模型训练与评测。
如何获得更好识别效果？
1. 在产品功能范围的任务，数据质量越高，识别与抽取效果越好，字迹清晰端正的数据能有更高的准确率。
2. 单字大小保持在10-50像素内，以获得较好的识别效果。
3. 数据来源于真实业务场景，且类型与版式完整覆盖。

步骤二：数据标注

数据标注划分为标注创建环节、标注环节、质检环节三大步骤；

标注任务创建

在「数据中心-标注任务」界面中，点击创建标注任务进入创建界面，编辑任务名称以及在上传数据中选择需要标注的数据集或直接本地上传，完成后进入题目设置。

预标注：开启OCR预标注识别后，在标注时画框之后会自动识别出框内文字内容，提高标注效率。

题目库：本任务中，已存在的题目，用户可通过查看题目库选择合适的题目用于标注任务的制定。

字段名称：识别字段对外透出的名称，即API接口中对应的名称，且字段名需全局唯一。

字段类型：字段属性定义，选择合适的字段类型可提升字段识别端到端效果，支持选择通用字段或用户自行添加自定义字段。无需后处理选择常规字段类型即可。

提示建议：

标注任务如何上传数据：
1. 支持本地上传和从数据集中选择；若您预先将数据上传至数据集，则可选择从数据集中选择，点击列表上方「添加数据集」，选择需要标注的数据集即可。
如何填写KV信息抽取：
1. 需要将需要标注的字段名称全部填入内容框中。选择相应的字段类型，可提高字段识别精准度。
2. 可选择已创建完成的「题目库」引用其字段。对于同一模型建议选择同一「题目库」，可确保其字段设置完全相同。

标注

在「数据中心-标注任务」中，选择已创建的标注任务，点击去标注进入数据标注界面。在标注工具中，可通过框选按钮进行待识别字段的框选标注，选择对应的题目，并仔细检查核对自动识别的文字内容。待所有图片及其所有待识别字段都依次完成标注后，点击提交任务完成该部分标注。

重要

标注数据的质量（文字及位置）将直接影响模型训练的效果与评测指标。

如遇见错误数据或不可标注数据，可选择跳过该张图片。

提示建议：

现长文档信息抽取仅支持「四角框」对识别字段进行框选，框选时选框四角尽可能贴合文字。
尽可能保证数据清晰端正无遮挡物，以及数据版式类型覆盖齐全。
「OCR预标注」支持印刷体文字识别，暂不支持手写体识别。预标注自动识别的文字内容需仔细核对检查，保证标注正确性。
如何实现跨行标注？
1. 分别标注跨行对应的部分，并给予它们正确的题目。
2. 按住「shift键」，点击此前的两个标注框的边。
3. 松开『shift键』，然后自动会把跨行数据合并，选择对应的题目。
4. 点击确定，右边就看到一个“组合”，单独的小框无需删除。

质检

进入「数据中心-标注任务」界面，选择已标注完成的任务进行质检。质检员可进行标注修改与驳回，完整当前所有标注任务后进行任务提交。注意核对所有字段是否均已完成标注。

提示建议

如何进行质检？
1. 质检员可直接使用标注工具对标注信息进行增删改操作。
2. 质检员选择「提交」则所有图片都完成质检工作。
质检过程中发现标注质量不高该怎么办？
1. 选择对应的题目进行直接修改编辑。
2. 选择「驳回」则退回标注员重新标注处理。

步骤三：模型训练与测评

进入「模型中心」，点击创建模型进入模型创建界面，进行训练集标注结果和测试集标注结果选择，同时完成和基本信息填写。创建模型成功后自动进入模型训练。

「预置模型」：长文档现支持「高性能」和「混合版面」两个版本。

「高性能模型」：适用于文档样式/格式较为简单的文档，例如仅包含标题、段落的文档，支持的文档格式包括PDF/图片。

「混合版面模型」：适用于文档样式/格式较为丰富的文档，例如包括标题，段落，表格、表单等内容的文档，支持的文档格式包括PDF/图片。

「训练集」：用于训练模型的数据源，只能选择标注且质检完成的数据集作为训练集，且已被选为测试集的数据集不可再次选择。建议选择20张以上有效数据进行模型训练。

「测试集」：用于测试模型的数据源，只能选择标注且质检完成的数据集作为测试集，且已被选为训练集的数据集不可再次选择。

「自动划分1/10训练集作为测试集」：若打开此按钮，则无需手动再次选择测试集，系统直接自动划分1/10训练集作为测试集。如打开自动划分功能前已存在完成上传测试集，打开开关后，系统将忽略此前手动上传的测试集数据。

模型训练费用及预估时长。根据任务类型及数量变动，以界面显示数字为准。

「训练时长」：由数据量、标注情况、机器资源等多种因素共同决定。如采用V100机器，6万字数约需1分钟训练时长。

提示建议：

您需要校验「测试集」和「训练集」字段，各数据集字段内容需要保持一致。
「模型训练」配置环节支持选择字段对应的字段类型，或根据业务需求删除字段，以提高训练精准度。
建议数据量越大，标注越精确，模型训练和评测的效果越好。
配置合适的字段类型，提升端到端准确率。

算法评估评价指标评：包括整体指标、字段指标两个维度。

整体指标 - 均值

精确率：算法模型精确率（Precision），未经规则后处理修正，为被识别为正类别的样本中，真实为正类别的比例，有正确预测的字段个数 / 所有预测的字段个数，即测试集中被识别出来的字段占该类字段标注框一致（内容+位置）比例。
召回率：算法模型召回率（Recall），未经规则后处理修正，为所有真实为正类别的样本中，被正确识别为正类别的比例，有正确预测的字段个数 / 所有真实正确的字段个数。
F值：综合评价指标（F1-Measure），为精确率和召回率的加权调和平均，常用于评价分类模型的好坏。