什么是文档智能

本文介绍阿里云文档智能(Document Mind)的产品概述、产品优势、产品架构以及产品类别。

产品概述

文档智能(Document Mind),基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求,为大模型数据训练、RAG、知识库问答提供高精度的文档解析能力。

产品优势

企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥数据价值。

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,从而简化业务操作流程、提升文档处理效率,帮助企业更准确地进行大模型应用的场景建设。

选择文档智能,您可以高效完成以下文档处理任务:

  • 结构化解析文档,提取文档中的层级树、版面、表格和字段等元素。

  • 进行文档格式转换,如PDF转Word或Excel、图片转Word或Excel等。

  • 借助自学习工具,自行定义所需抽取的文档信息并训练文档处理模型。

产品架构

文档智能平台以非结构化文档为输入,依托文档智能预训练技术和产品,输出处理后的结构化数据。具体产品架构图如下所示。

image

产品类别

通用文档智能产品

文档理解

对各类文档和表格进行结构化识别与理解,并可在此基础上完成文档抽取等多种通用场景下的智能文档处理任务。详细内容,请参见文档理解

文档格式转换

将PDF、图片等不可编辑的文档转换为Word、Excel等可编辑的文档格式,在实现高精度内容识别的同时,最大限度地保留文档版式样式。详细内容,请参见文档格式转换

文档自学习产品

文档自学习

提供数据标注和训练能力,支持各类文档和表格的自学习训练。详细内容,请参见文档自学习