参照字段和识别字段自定义表格模板

功能简介

  • 自定义表格模板是针对固定版式的单页有框线表格表单数据提供一款定制化产品。用户仅需通过一张模板数据的可视化拖拉拽配置参照字段、识别字段或表头&待识别的列表区域,字段属性等,无需进行数据标注和模型训练,即可实现相同版式数据的自定义结构化识别抽取。经过配置调优的模板识别准确率可达85%以上。

  • 同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同版式数据的自动分类路由与高精度识别。

功能优势

  • 低成本,仅需提供一张样图即可完成模板搭建,无需标注。

  • 低门槛,通过拖拉拽可视化配置即可完成模板定义,无需二次开发。

  • 高效率,3-5分钟即可完成一个模板的配置

应用场景

  • 少样本冷启动:适用于业务数据样本少(少于20张)、需要快速上线验证的场景。

  • 数据版式固定:版式固定的列表型有框线表格和KV型有框线表格,样式&元素&表头保持不变,但可以有单元格高度的调整或行数增加,例如医疗票据、体检报告识别等保险理赔、银行转账、年报审计、业务数据结构化等场景。

  • 说明
    • 表格模板同时支持Key-Value型/列表型表格表单数据与表格线外字段识别。

    • 表格内识别字段粒度最小为单元格,不支持小于单元格内的区域粒度识别。

    • 暂不支持跨页的表格或字段识别 。

    • Key-Value型表格,可以有单元格高度的调整,不支持单元格的增加、拆分、删除。

    • 列表型表格,表头区域需保持不变,识别区域可以有行数的变化,暂不支持合并单元格。

相关链接

操作指南

「自定义表格模板操作演示」参考:

创建自定义表格模板的流程如下图所示,仅需四步操作即可完成创建。

image

步骤一 : 上传模板图片

创建完成自定义表格模板项目,进入项目详情进行模板创建。点击上传模板图片界面上传文件按钮,上传字迹清晰且无旋转的模板图片,并根据数据特征配置相应的参数。

编组 4

提示建议

  1. 模板图片如何选择?

    1. 字迹清晰、摆放端正、无反光、字段全且有完整表格框线的扫描图片效果更佳。

    2. 文档,支持不超过20M且后缀为PDF 的单页文件。

    3. 图片,支持不超过10M且后缀为JPG、JPEG、PNG的文件。

  2. 模板参数是什么,如何配置?

    1. 设置样本的特征信息,便于对样本数据进行预处理和AI模型匹配,优化处理效果配置。

    2. 支持语言、文字类型、图像处理、红章处理配置项。

    3. 模板参数配置不实时生效和展示,模板测试环节可以正常生效。

  3. 什么样的数据识别效果较好?

    1. 单张图片最长边不超过8192像素,最短边不小于15像素。当长边超过1024像素时,长宽比不超过 50 :1。

    2. 建议单字大小保持在10-50像素内,以获得较好的识别效果。

    3. 模板图与真实业务数据的拍照角度、方位有较大差别时,可影响识别效果。

步骤二 : 框选参照字段

进入框选参照字段界面,左侧工具栏选择框选按钮,框选模板图片中内容和位置都固定不变的文字或表格内的单元格,例如表头。

image截屏2023-02-10 10

参照字段参照字段为相同版式表格数据中固定出现的字段,且相对位置保持不变。建议框选的参照字段分布在页面的四周,表格内以单元格为框选粒度。如联合分类器使用,也会对其产生影响。

提示建议

  1. 如何框选参照字段?

    1. 框选6个以上参照字段,Key-Value型参照字段尽量分散在四角。

    2. 表格内参照字段以单元格为粒度

    3. 保证框选的参照字段中文字内容及单元格位置不变。

    4. 仅支持中英文、数字、不可包含符号、图案。

  2. 实在没有6个以上可框选的参照字段,怎么办?

    1. 直接跳过框选参照字段步骤,底层算法模型将自行分析,但联合分类器使用时对于版式十分相似的模板需仔细配置。

步骤三 : 配置识别字段

进入配置识别字段界面,左侧工具栏选择框选按钮,框选模板图片中需要识别的字段与表格。其中列表型表格需分别定义表头字段识别列字段,并点击表头字段的输入框填写对应列名校对表头值同时,填写字段名校对value值,并选择对应的字段类型高级配置以提高识别准确率。

编组 3

image

截屏2023-02-10 10

识别字段识别字段是图片中需要被识别的单元格,即业务中所期望使用的信息,用于输出结构化结果。每个识别字段包含字段名、Value值、字段类型等必选项,每个表格包括表头字段、识别列字段、列名、表头值、字段类型等必选项,以及高级配置作为可选项。

字段名识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。

Value值:识别字段的内容,框选后可自动识别并填充。如有对特定字段的后处理需求(如日期的归一化、金额的纯数字提取、符号的正则替换等),可以通过字段类型和高级配置实现,在调用时生效。

列名列表型表格的某一列对外透出的名称,即API接口中对应的名称,点击表头字段进行设置,且列名需全局唯一。

表头值:识别字段的内容,框选后可自动识别并填充。如有对特定字段的后处理需求(如日期的归一化、金额的纯数字提取、符号的正则替换等),可以通过字段类型和高级配置实现,在调用时生效。

提示建议

  1. 如何框选识别字段?

    1. 逐个框选所需抽取字段的文字所在位置。

    2. 表格外识别字段框尽量覆盖该字段文字可能出现的最大范围,可以避免字段识别不完整。

    3. 表格字段以单元格作为最小颗粒度,且尽可能贴合表格单元框区域。

  2. 如何提升识别字段准确率?

    1. 选择合适的字段类型以提升字段识别效果,支持选择通用字段或用户自行添加自定义字段。无需后处理选择常规字段类型即可。

    2. 如需内容替换或设置多行连接符的情况可配置高级配置。

    3. 高级配置中正则表达式支持用户通过字符串定义替换前和替换后的文字,示例如下:

    备注

    输入

    原内容

    替换内容

    结果

    替换字符串

    abcdef

    abc

    hello

    hellodef

    去掉多余空格

    ab de f

    \s+

    ab de f

    倒数第二位数字前加小数点

    12345

    (\d+)(\d{2})$

    \1.\2

    123.45

    去除冒号前内容

    Mobile:12345678

    .+:(\d+)

    \1

    12345678

    日期格式转换

    2023-2-3

    ^(\d+)-(\d+)$

    \1年\2月\3日

    2023年2月3日

步骤四 : 模板测试与发布

参照字段和识别字段全部框选完成后,即可进入模板测试与发布环节,点击上传文件上传相同版式图片测试模板效果,若效果满意即可发布模板并开始API调用

编组 5

截屏2023-02-10 10

模板调优建议

  1. 测试结果出现图片无法匹配模板的情况怎么办?

    1. 确认上传的测试图片与模板图片是否为同一版式。

    2. 调整参照字段框选范围或更换参照字段,以提升模板匹配准确率。

  2. 测试结果中出现识别结果不完整的情况怎么办?

    1. 可调整识别字段框选范围,框尽量覆盖该字段文字可能出现的最大范围,以完善此类情况。

    2. 检查识别测试图片中表格框线是否完整。

    3. 检查字段类型的选择,例如数字识别成字母,则可调整此识别字段的字段类型。

    4. 检查字段的高级配置。

  3. 测试结果中出现识别字段错误怎么办?

    1. 检查字段类型的选择,例如将常规调整为数字类型,可更加精准的识别字段。

    2. 检查识别字段框线是否贴合表格单元格区域。

    3. 检查字段的高级配置。

  4. 测试结果选框偏移怎么办?

    1. 检查参照字段或识别字段框选是否符合要求。

    2. 检查模板图片是否符合要求。

模板管理

模板发布完成后,您可点击项目详情进入项目概览,查看模板基本信息、模板信息以及调用数据,已发布的模板支持API调用和在线使用。

说明

注意:

  • 您需要开通自定义表格模板服务才可对已发布模板发起调用,调用数据可在详情看板查看。API调用和在线使用均计费,具体产品计费可查看计费概述文档。

  • 模板发布后,可通过在线使用或API调用进行服务使用。