OCR文档自学习

更新时间: 2022-09-19 14:59:00

文档自学习平台是面向“无算法基础”的企业与个人开发者用户,以平台化全流程可视化操作,引导用户通过数据处理、模型构建训练、模型管理、部署发布等操作,快速完成更满足场景需求的高精度AI模型生产的一站式工具型平台产品,旨在帮助企业更好地解决多模态文档处理的需求,助力数字化转型。

功能详情

文档自学习平台现支持模板和模型两大类项目的自主训练。用户可以通过配置模板或少量标注数据,训练出更满足业务场景需求的AI智能模型。

模板即无需训练即可产生模型,支持自定义KV模板、表格表单KV模板(KV为Key-Value键值字段的简称)。

模型即需要多样本自学习训练模型,支持单据票证信息抽取、表格表单信息抽取和长文档信息抽取。

产品优势

多模态文档信息抽取

帮助客户将多模态文档的自定义信息抽取这件事情做好,达到服务可用、好用的地步。后续所有的产品重心都将围绕这件事情建设。

零代码自主定制

通过少样本等技术手段,降低模型训练门槛,让无算法基础的用户结合自己场景数据,自主完成模型定制,将数据资产转化成服务资产。

高精度模型效果

内置超大规模与训练模型,通过高精度、少样本均衡算法,满足不同场景零代码建模的精度需求。

高效模型生产效率

模型自主研发效率从过去1个月定制1个模型,提升至1天甚至1小时定制1个模型。

灵活的部署形态

支持高可用公共云形态与本地私有化部署,满足不同客户的落地需求。

应用场景

票据单证抽取

支持对各类单据、票证的KV信息抽取,平均识别率>95%,适用于版式相对固定且可枚举的场景。

表格表单解析

可实现对各类表格表单的信息抽取,平均识别率>95%,适用于版式相对固定且可枚举的场景。

非结构化长文档解析

支持对各类非结构化文档进行自动化信息抽取,平均识别率>85%,适用于处理非结构化的多页文档。

公告公文处理

支持公告公文等类型的文档信息抽取,通过文档自学习平台实现版式样式不固定下的文档处理。

阿里云首页 文档智能 相关技术圈