本文介绍自定义KV模板的功能简介、功能优势、应用场景和操作指南等。
功能简介
自定义KV模板是针对卡证、票据等固定版式的数据提供的一款定制化产品。用户仅需通过一张模板数据的可视化拖拉拽配置,无需进行数据标注和模型训练,即可实现相同版式数据的自定义结构化识别抽取。经过配置调优的模板识别准确率可达85%以上,同时工具箱中还提供了分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同版式数据的自动分类路由与高精度识别。
功能优势
低成本:仅需提供一张样图即可完成模板搭建,无需标注。
低门槛:通过拖拉拽可视化配置即可完成模板定义,无需二次开发。
高效率:3-5分钟即可完成一个模板的配置。
应用场景
少样本冷启动:适用于业务数据样本少(少于20张)、需要快速上线验证的场景。
数据版式固定:适用于业务数据类型多,但每一种类型数据字段明确可标识,并且Key-Value位置固定的场景。广泛应用于学生证、结婚证、银行转账单等资质审核、财务报销、业务数据等结构化场景。
操作指南
如下所示为自定义KV模板操作演示参考:
创建自定义KV模板的流程如下图所示,仅需四步操作即可完成创建。
步骤一 : 上传模板图片
单击进入OCR文档自学习平台,找到自定义KV模板并单击立即开通。
开通成功后页面自动跳转至OCR文档自学习平台,找到自定义KV模板并单击创建任务,在创建应用页面根据您的需求进行参数设置,设置完成后单击确认。
在我的应用页面中找到已经创建的应用,单击进入应用,单击开始创建模板,在上传模板图片页面单击查看本地文件,上传字迹清晰且无旋转的模板图片,并根据数据特征配置相应的参数,配置完成后单击下一步。
步骤二 : 框选参照字段
在左侧工具栏选择框选按钮,框选模板图片中内容和位置都固定不变的文字区域作为参照字段。
在右侧参照字段区域根据您的需求配置参数,配置完成后单击下一步。参数说明如下:
参照字段:图片中文字及位置固定不变的字段区域,用于相同版式待识别图片的自动矫正与锚定匹配。如联合分类器使用,也会对其产生影响。
步骤三 : 配置识别字段
进入配置识别字段页面,在左侧工具栏选择框选按钮,框选模板图片中需要识别的字段区域。
在右侧区域填写字段名校对value值,并选择对应的字段类型和高级配置以提高识别准确率,配置完成后单击下一步。参数说明如下:
识别字段:识别字段是图片中需要被识别的区域,即业务中所期望使用的信息,用于输出结构化识别结果。每个识别字段包含字段名、Value值、字段类型的必选项,以及高级配置作为可选项。
字段名:识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。
Value值:识别字段的内容,框选后可自动识别并填充。如有对特定字段的后处理需求(如日期的归一化、金额的纯数字提取、符号的正则替换等),可以通过字段类型和高级配置实现,在调用时生效。
步骤四 : 模板测试与发布
参照字段和识别字段全部框选完成后,即可进入模板测试与发布环节,点击查看本地文件上传相同版式图片测试模板效果,若效果满意即可发布模板并开始API调用。可通过重新上传按钮,测试多份数据的效果,同时可通过返回上一步进行效果调优。
模板调优与管理
模板调优建议
测试结果出现图片无法匹配模板的情况怎么办?
确认上传的测试图片与模板图片是否为同一版式。
调整参照字段框选范围或更换参照字段,以提升模板匹配准确率。
测试结果中出现识别结果不完整的情况怎么办?
可调整识别区框选范围,框尽量覆盖该字段文字可能出现的最大范围,以完善此类情况。
检查字段类型的选择,例如数字识别成字母,则可调整此识别字段的字段类型。
检查字段的高级配置。
测试结果中出现识别字段错误怎么办?
检查字段类型的选择,例如将常规调整为数字类型,可更加精准的识别字段。
检查字段的高级配置。
测试结果选框偏移怎么办?
检查参照字段或识别字段框选是否符合要求。
检查模板图片是否符合要求。
模板管理
模板发布完成后,可通过项目详情进入项目概览,查看模板基本信息、模板信息以及调用数据。已发布的模板支持API调用和在线使用。
需完成自定义KV模板服务开通,才可进行模板配置。
仅可已发布模板发起调用和在线使用,调用数据可在详情看板查看。API调用和在线使用均计费,具体产品计费可查看OCR文档自学习计费。