功能简介
自定义表格模板是针对固定版式的单页有框线表格表单数据提供的一款定制化产品。用户仅需通过一张模板数据的可视化拖拉拽配置参照字段、识别字段或表头&待识别的列表区域,字段属性等,无需进行数据标注和模型训练,即可实现相同版式数据的自定义结构化识别抽取。经过配置调优的模板识别准确率可达85%以上。
同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同版式数据的自动分类路由与高精度识别。
功能优势
低成本,仅需提供一张样图即可完成模板搭建,无需标注。
低门槛,通过拖拉拽可视化配置即可完成模板定义,无需二次开发。
高效率,3-5分钟即可完成一个模板的配置
应用场景
少样本冷启动:适用于业务数据样本少(少于20张)、需要快速上线验证的场景。
数据版式固定:版式固定的列表型有框线表格和KV型有框线表格,样式&元素&表头保持不变,但可以有单元格高度的调整或行数增加,例如医疗票据、体检报告识别等保险理赔、银行转账、年报审计、业务数据结构化等场景。
表格模板同时支持Key-Value型/列表型表格表单数据与表格线外字段识别。
表格内识别字段粒度最小为单元格,不支持小于单元格内的区域粒度识别。
暂不支持跨页的表格或字段识别 。
Key-Value型表格,可以有单元格高度的调整,不支持单元格的增加、拆分、删除。
列表型表格,表头区域需保持不变,识别区域可以有行数的变化,暂不支持合并单元格。
相关链接
操作指南
「自定义表格模板操作演示」参考:
创建自定义表格模板的流程如下图所示,仅需四步操作即可完成创建。
步骤一 : 上传模板图片
创建完成自定义表格模板项目,进入项目详情进行模板创建。点击上传模板图片界面上传文件按钮,上传字迹清晰且无旋转的模板图片,并根据数据特征配置相应的参数。
步骤二 : 框选参照字段
进入框选参照字段界面,左侧工具栏选择框选按钮,框选模板图片中内容和位置都固定不变的文字或表格内的单元格,例如表头。
参照字段:参照字段为相同版式表格数据中固定出现的字段,且相对位置保持不变。建议框选的参照字段分布在页面的四周,表格内以单元格为框选粒度。如联合分类器使用,也会对其产生影响。
步骤三 : 配置识别字段
进入配置识别字段界面,左侧工具栏选择框选按钮,框选模板图片中需要识别的字段与表格。其中列表型表格需分别定义表头字段和识别列字段,并点击表头字段的输入框填写对应列名校对表头值。同时,填写字段名校对value值,并选择对应的字段类型和高级配置以提高识别准确率。
识别字段:识别字段是图片中需要被识别的单元格,即业务中所期望使用的信息,用于输出结构化结果。每个识别字段包含字段名、Value值、字段类型等必选项,每个表格包括表头字段、识别列字段、列名、表头值、字段类型等必选项,以及高级配置作为可选项。
字段名:识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。
Value值:识别字段的内容,框选后可自动识别并填充。如有对特定字段的后处理需求(如日期的归一化、金额的纯数字提取、符号的正则替换等),可以通过字段类型和高级配置实现,在调用时生效。
列名:列表型表格的某一列对外透出的名称,即API接口中对应的名称,点击表头字段进行设置,且列名需全局唯一。
表头值:识别字段的内容,框选后可自动识别并填充。如有对特定字段的后处理需求(如日期的归一化、金额的纯数字提取、符号的正则替换等),可以通过字段类型和高级配置实现,在调用时生效。
步骤四 : 模板测试与发布
参照字段和识别字段全部框选完成后,即可进入模板测试与发布环节,点击上传文件上传相同版式图片测试模板效果,若效果满意即可发布模板并开始API调用。
模板调优建议
测试结果出现图片无法匹配模板的情况怎么办?
确认上传的测试图片与模板图片是否为同一版式。
调整参照字段框选范围或更换参照字段,以提升模板匹配准确率。
测试结果中出现识别结果不完整的情况怎么办?
可调整识别字段框选范围,框尽量覆盖该字段文字可能出现的最大范围,以完善此类情况。
检查识别测试图片中表格框线是否完整。
检查字段类型的选择,例如数字识别成字母,则可调整此识别字段的字段类型。
检查字段的高级配置。
测试结果中出现识别字段错误怎么办?
检查字段类型的选择,例如将常规调整为数字类型,可更加精准的识别字段。
检查识别字段框线是否贴合表格单元格区域。
检查字段的高级配置。
测试结果选框偏移怎么办?
检查参照字段或识别字段框选是否符合要求。
检查模板图片是否符合要求。
模板管理
模板发布完成后,您可点击项目详情进入项目概览,查看模板基本信息、模板信息以及调用数据,已发布的模板支持API调用和在线使用。
注意:
您需要开通自定义表格模板服务才可对已发布模板发起调用,调用数据可在详情看板查看。API调用和在线使用均计费,具体产品计费可查看计费概述文档。
模板发布后,可通过在线使用或API调用进行服务使用。