文档

什么是文档智能

更新时间:

本文介绍阿里云文档智能(Document Mind)的产品概述、业务价值、产品架构及核心能力,并将通义智文作为文档智能与大模型结合的新品进行发布。

文档智能产品概述

文档智能(Document Mind),基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能、行业文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求。

为什么选择文档智能

企业数据大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥出数据价值。

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术,对非结构化和半结构化文档进行智能自动化处理,从而简化业务操作流程、提升文档处理效率。

选择文档智能,您可以高效完成以下文档处理任务:

  • 结构化解析文档,提取文档中的层级树、版面、表格和字段等元素。

  • 进行文档格式转换,如PDF转Word/Excel、图片转Word/Excel等。

  • 借助自学习工具,自行定义所需抽取的文档信息并训练文档处理模型。

产品架构

文档智能平台以非结构化文档为输入,依托文档智能预训练技术和产品,输出处理后的结构化数据。具体产品架构图如下所示。

image

产品能力

通用文档智能产品

文档理解

对各类文档和表格进行结构化识别与理解,并可在此基础上完成文档抽取等多种通用场景下的智能文档处理任务。

文档格式转换

将PDF、图片等不可编辑的文档转换为Word、Excel等可编辑的文档格式,在实现高精度内容识别的同时,最大限度地保留文档版式样式。

文档自学习产品

文档自学习

提供数据标注和训练能力,支持各类文档和表格的自学习训练。

  • 本页导读 (0)