什么是文档理解,有哪些功能特性-文档智能(Document Mind)-阿里云帮助中心

文档理解是对各类文档和表格进行结构化识别与理解，返回层级树和版面分析等相关信息。本文介绍文档理解的功能特性、功能优势和应用场景。

说明

在使用本产品服务前，请先开通文档智能产品的相关功能。

若无阿里云账号，请先根据提示注册云账号，登录进入阿里云官网（需要实名认证后才可购买云产品）。搜索文档智能产品并点击立即使用，在页面中找到服务管理与开通，有文档理解和文档格式转换两种产品可供选择，注意选择对应产品开通。

开通文档理解服务后所属子产品会有一定免费额度，免费额度使用完后需要自主付费才能继续使用产品。

若已有阿里云账号，请在文档智能产品详情页面选择对应产品购买付费使用。

功能特性

对各类的文档，包括图文文档（含扫描版和电子版）、音视频文档进行解析，从文档中提取出层级树和版面信息，支持输出Markdown格式。可作为大模型预训练、RAG的文档预处理链路，提供高质量、高精度的文档解析服务，能够帮助企业高效地进行大模型应用的场景建设。详情请参见文档解析（大模型版）。

适用于纯电子文档的解析，从电子文档半结构化内容中解析出所包含的结构化对象，从文档中提取出逻辑层级结构，支持输出Markdown格式。详情请参见电子文档解析。

进行通用文档解析，从文档中提取出逻辑层级结构、文本内容、表格内容、Key-Value键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解，以结构化数据的形态输出抽取结果。详情请参见文档智能解析。

三者能力比对

版本	支持格式	输出	特点
文档解析（大模型版）	支持市面上绝大部分格式的文档： .png/.jpg/.jpeg/.bmp/.gif .pdf （支持扫描页） .doc/.docx/.rtf/.docm .pptx/.ppt .xlsx/.xls .txt/.epub/.mobi .md/.html .mp4/.mkv/.avi/.mov/.wmv .mp3/.wav/.aac	丰富的样式、版面层级信息。分块流式输出解析内容。支持输出Markdown。不输出原图和坐标。	功能较全，推荐使用	效果最好	速度较快
电子文档解析	纯电子解析，支持格式： .pdf （不支持扫描页） .doc/.docx/.rtf/.docm .pptx/.ppt .xlsx/.xls .txt/.epub/.mobi .md/.html	简化的版面Layout信息、样式信息。支持输出Markdown。不输出原图和坐标。	功能中等	效果中等	速度最快
文档智能解析	支持格式： .png/.jpg/.jpeg/.bmp/.gif .pdf （支持扫描页） .doc/.docx	输出样式、版面、层级信息、表格和KV信息。输出包含原图和内容坐标。支持输出Markdown。	功能较全	效果较好	速度较快

进行通用表格解析，从表格中提取出表格样式、表格内容、文本KV、表格KV等。基于对表格的内容信息、版面信息和逻辑信息的分析理解，以结构化数据的形态输出抽取结果。详情请参见表格智能解析。

进行文档关键信息抽取，对各种类型的文档和表格中的关键信息进行智能化抽取，返回Key-Value内容。既包括文本段落中的KV字段，也包括表格中的KV字段。详情请参见文档抽取。

支持对PDF、Word、Markdown等多种文档格式的处理，返回文档的层级结构，并结合文档语义信息，处理成文档切片后用于大模型训练，方便下游结合大模型开发智能问答等应用。

可以精准识别并解析包括企业日常办公中常见的Office文档（Word/Excel/PPT）、PDF、图片等在内的主流文件类型，返回文档的样式、版面信息和层级树结构，从而为RAG输入高精准度、高连贯语义的切块（Chunk），保障了整个RAG方案的基础效果。

搜索增强生成RAG最终稿.png

对各类办公文档和表单进行智能化处理，实现文档的结构化信息提取，提升办公场景下的生产力。