本文介绍知识平台的GraphRAG功能,包括知识库管理、文档处理、知识图谱可视化、知识问答和模型配置的操作说明。
功能概览
GraphRAG是基于图结构的知识增强检索系统。其核心思路是将文档内容解析为实体-关系图谱,并以图谱作为检索增强的基础,使AI能够回答跨文档、跨章节的复杂语义问题。
GraphRAG包含以下核心概念:
概念 | 说明 |
Workspace(工作空间) | GraphRAG的顶层组织单元,一个Workspace对应一套独立的文档集合和知识图谱。不同Workspace之间的数据相互隔离。 |
实体(Entity) | 从文档中提取的具有特定类型的知识节点,例如人物、组织、地点、事件等。 |
关系(Relation) | 连接两个实体的语义边,描述实体之间的关联关系。 |
文本块(Chunk) | 文档经过分块处理后生成的文本片段,是图谱构建和检索的基础数据单元。 |
GraphRAG的处理流程如下:
文档解析与分块:上传文档后,系统通过解析引擎(MinerU、Docling或PaddleOCR)提取文字、表格和图像内容,并按配置的分块参数将文本切分为多个文本块(Chunk),每个文本块生成向量嵌入(Embedding)。
知识图谱构建:系统调用LLM对文本块进行实体抽取和关系抽取,将提取的实体和关系写入知识图谱(基于PolarDB的polar_age图扩展存储)。
多模式检索与问答:提问时,系统根据选择的检索模式(本地模式、全局模式、混合模式、混合检索等)从知识图谱和向量库中召回相关上下文,再由LLM生成回答。
知识库
知识库用于管理Workspace(工作空间),一个Workspace对应一套独立的文档集合和知识图谱。您可以创建多个Workspace来管理不同业务场景的文档。
创建工作空间
在GraphRAG页面左侧导航栏中,单击知识库。
单击新建知识库。
在创建对话框中,配置以下参数:
参数
说明
名称
工作空间名称,用于标识不同的文档集合。名称需符合命名规则,建议使用有意义的业务名称。
解析参数
配置文档解析相关参数,包括解析器类型、解析方式、分块大小和分块重叠等。具体参数说明请参见参数设置。
单击创建,完成工作空间创建。
切换工作空间
在工作空间列表中,找到目标工作空间,单击操作列的切换,即可将当前活跃工作空间切换为目标空间。切换后,文档处理、知识图谱、知识问答等功能将基于该工作空间的数据运行。
删除工作空间
在工作空间列表中,找到目标工作空间,单击删除。
删除工作空间将同时删除该空间下的所有文档、知识图谱和相关数据,且不可恢复。请谨慎操作。
默认工作空间
系统首次启动时会自动创建名为default的默认工作空间。如果您删除了所有工作空间,再次访问时系统会提示您先创建一个新的工作空间。
文档处理
文档处理是GraphRAG的数据入口。系统会对上传的文档依次执行以下流程:解析、分块、图谱构建、状态更新。处理完成后,文档内容将被转化为实体-关系图谱,供知识问答使用。
支持的文档格式
GraphRAG支持以下文档格式:
PDF
Word(.doc、.docx)
PPT(.ppt、.pptx)
Excel(.xls、.xlsx)
TXT
Markdown(.md)
图像(JPG、PNG等)
上传文档
在GraphRAG页面左侧导航栏中,单击文档处理。
确认当前工作空间为目标空间。
单击上传文档,选择需要处理的文档文件。
上传完成后,系统将自动开始文档处理流程。您可以在文档列表中查看处理状态。
文档处理状态
文档在处理过程中会经历以下状态:
状态 | 说明 |
| 文档已上传,等待系统处理。 |
| 文档正在处理中,包括解析和分块操作。 |
| 文档预处理完成,正在进行图谱构建。 |
| 文档处理完成,实体和关系已提取到知识图谱中,可用于知识问答。 |
| 文档处理失败。您可以查看日志了解失败原因,并尝试重新处理。 |
文档管理操作
在文档列表中,您可以对文档执行以下操作:
查看执行日志:页面底部的执行日志面板展示文档处理的详细日志信息,包括解析、分块和图谱构建的执行记录。您可以展开或收起日志面板。
查看分块详情:单击目标文档的文件名,查看文档被分块后的文本块列表及其内容。
重新处理失败文档:对于处理失败的文档,单击页面顶部工具栏的重新处理失败文档按钮,系统将对所有失败文档重新执行处理流程。
删除文档:单击目标文档操作列的删除图标,移除文档及其关联的图谱数据。
参数设置
在创建或编辑工作空间时,您可以配置以下文档处理参数:
参数 | 可选值 | 说明 |
解析器 |
| 选择文档解析引擎。不同解析器适用于不同的文档场景,详见下方解析器选择建议。 |
解析方式 |
| 设置文档解析方式。 |
分块大小 | 默认值:1200 | 设置每个文本块的最大字符数。较大的分块可保留更完整的上下文,较小的分块可提高检索精度。 |
分块重叠 | 默认值:100 | 设置相邻文本块之间的重叠字符数。适当的重叠可避免关键信息在分块边界处被截断。 |
解析器选择建议
根据文档类型和排版特点,建议选择不同的解析器:
解析器 | 适用场景 | 说明 |
MinerU | 复杂排版文档 | 适合处理包含多栏布局、表格嵌套、图文混排等复杂排版的文档,具有较强的版面分析能力。 |
Docling | 结构化格式文档 | 适合处理Word、PPT、Excel等具有明确结构的文档格式,能较好地保留文档层级和格式信息。 |
PaddleOCR | 纯图片文档 | 适合处理扫描件、截图等纯图片形式的文档,通过OCR技术识别图片中的文字内容。 |
知识图谱
知识图谱模块以可视化方式展示文档中提取的实体和关系网络。通过图谱视图,您可以直观地了解文档内容之间的语义关联。
默认实体类型
系统默认提取以下类型的实体:
实体类型 | 说明 |
| 组织机构,如公司、部门、团队等。 |
| 人物,如作者、负责人、参与者等。 |
| 地理位置,如国家、城市、地区等。 |
| 事件,如项目启动、版本发布、会议等。 |
| 类别,如技术领域、产品分类等。 |
浏览图谱
在知识图谱可视化页面中,您可以执行以下操作:
缩放:通过鼠标滚轮或触控板手势调整图谱的显示比例,查看全局结构或局部细节。
平移:按住鼠标左键拖动画布,移动图谱的可视区域。
点击高亮:单击某个实体节点,系统将高亮显示该实体及其直接关联的实体和关系,便于追踪特定实体的关联网络。
标签筛选
在图谱页面的标签筛选面板中,您可以按实体类型(如organization、person等)筛选显示的实体,聚焦特定类型的知识网络。
调整显示规模
您可以通过以下参数调整图谱的显示规模:
深度:设置图谱展开的关系层数,取值范围为1~5。深度越大,显示的关联层级越多。
节点数:控制图谱中显示的最大节点数量。建议设置在300以内,以保证可视化页面的流畅体验。
当节点数量过大时,图谱渲染可能出现卡顿。建议结合标签筛选和深度调整来控制显示规模。
搜索实体
在图谱页面的搜索框中输入实体名称或关键词,系统将定位并高亮匹配的实体节点,便于在大规模图谱中快速找到目标实体。
知识问答
知识问答模块提供基于图谱增强的对话式问答功能,支持多轮对话。系统根据用户问题,从知识图谱和文档内容中检索相关信息,生成准确的回答。
检索模式
GraphRAG支持以下检索模式,您可以根据问题类型选择合适的模式:
模式 | 适用场景 | 说明 |
本地模式 | 具体细节查询 | 基于局部图谱结构进行检索,适合查询特定实体的属性、关系等细节信息。 |
全局模式 | 宏观摘要类问题 | 基于全局图谱结构进行检索和汇总,适合需要跨文档综合分析的宏观问题。 |
混合模式 | 综合性问题 | 结合local和global两种模式的检索结果,兼顾细节和全局视角。 |
混合检索 | 通用场景(推荐) | 推荐的默认模式。融合图谱检索和向量检索,在大多数问答场景下能获得最佳效果。 |
朴素模式 | 简单关键词匹配 | 纯向量检索模式,不使用图谱增强。适合简单的关键词匹配场景,响应速度较快。 |
绕过模式 | 纯大模型对话 | 跳过所有检索,直接使用大语言模型回答。适合与文档内容无关的通用问题。 |
问答操作
在GraphRAG页面左侧导航栏中,单击知识问答。
确认当前工作空间为目标空间,并选择合适的检索模式。推荐使用混合检索。
在对话输入框中输入问题,按回车键或单击发送按钮。系统将以流式输出方式实时展示回答内容。
回答生成完成后,您可以继续输入后续问题进行多轮对话。系统会结合上下文信息提供更准确的回答。
如果回答效果不理想,您可以尝试切换检索模式。例如,查询具体细节时使用本地模式,查询宏观概览时使用全局模式。
如需开始新的独立会话,单击清空对话按钮清除当前会话的上下文记录。
查看引用来源
在每条回答中,系统会标注引用来源。单击引用标记可查看原始文档内容,帮助您验证回答的准确性和溯源信息出处。
常见问题
回答显示"找不到相关信息"
可能原因:文档尚未处理完成、使用了限制性过强的本地模式、问题措辞与文档内容差异较大。建议切换为混合检索或混合模式后重试。
回答质量较差
可能原因:LLM模型配置不正确、分块大小设置过小导致上下文不完整、业务领域实体类型未自定义。建议检查模型配置是否正确,在参数设置中适当增大分块大小,并在知识库设置中添加更具体的业务实体类型。
模型配置
模型配置模块用于管理GraphRAG使用的AI模型。系统采用模型提供商 + 模型的两层配置架构,模型ID格式为模型名@提供商名。
模型类型
GraphRAG使用以下四种类型的AI模型:
模型类型 | 是否必选 | 说明 |
LLM | 是 | 大语言模型,用于实体提取、关系识别、知识问答等核心任务。 |
Embedding | 是 | 文本向量化模型,用于将文本转换为向量表示,支持语义相似度检索。 |
Rerank | 否 | 重排序模型,用于对初步检索结果进行精排,提升检索质量。配置后可增强问答的准确性。 |
VLM | 否 | 视觉语言模型,用于处理包含图像的文档内容。配置后可增强对图片类文档的理解能力。 |
LLM和Embedding为必选模型,系统运行前必须配置。Rerank和VLM为可选模型,根据实际需求配置。
核心概念
模型提供商(Factory):模型的来源平台或厂商,每个提供商持有一个API Key和可选的Base URL。系统预置了30余个主流提供商。
模型(Model):挂载在提供商下的具体模型实例,包含模型名称、类型(chat/embedding/rerank等)和最大Token数等属性。
模型ID:系统使用
模型名@提供商名作为模型的唯一标识,例如qwen-plus@Tongyi-Qianwen。API Key与模型的关系:修改提供商的API Key后,系统会自动同步更新该提供商下所有已添加模型的密钥。
首次配置
首次使用GraphRAG时,需要按照以下步骤完成模型配置:
添加模型提供商:在模型配置页面,展开从预设模型提供商添加区域,选择目标提供商(如千问、OpenAI、DeepSeek等),填写API Key等连接信息。
添加模型:单击添加自定义模型,选择提供商并输入模型名称和类型。系统将自动生成模型ID,格式为
模型名@提供商名。设置默认模型:在页面顶部的默认模型设置区域,分别为LLM和Embedding类型选择默认使用的模型,单击保存。
模型管理操作
完成首次配置后,您还可以执行以下管理操作:
修改提供商API Key:在已添加模型列表中找到目标提供商,单击提供商行右侧的API-Key按钮,在弹框中修改API Key或Base URL后保存。修改后该提供商下所有模型的密钥将同步更新。
删除单个模型:展开目标提供商的模型列表,勾选要删除的模型,单击删除选中按钮确认。
说明需先勾选至少一个模型后,删除选中按钮才会出现。
删除提供商及其全部模型:单击提供商行右侧的全部删除按钮,确认后系统将同时移除该提供商的API Key记录及其下所有模型。
重载配置模型:如果在服务端
.env文件中修改了LLM_MODEL、LLM_API_KEY、EMBEDDING_MODEL等环境变量,可单击重载配置模型按钮,将环境变量中的模型配置同步到配置文件,无需重启服务。
支持的模型提供商
系统预置了以下主流模型提供商(部分列举):
提供商 | 支持类型 | 说明 |
Tongyi-Qianwen | LLM、Embedding、Rerank、VLM | 阿里云千问 |
OpenAI | LLM、Embedding、VLM | OpenAI官方 |
DeepSeek | LLM | 深度求索 |
ZHIPU-AI | LLM、Embedding、Rerank | 智谱GLM |
Ollama | LLM、Embedding | 本地模型部署 |
Azure-OpenAI | LLM、Embedding、VLM | Azure托管的OpenAI |
Bedrock | LLM、Embedding、VLM | AWS Bedrock |
以上仅列举部分提供商,完整列表请在模型配置页面的从预设模型提供商添加区域查看。
常见问题排查
模型配置过程中如遇到问题,请参考以下排查方案:
问题现象 | 可能原因 | 解决方案 |
文档状态持续为 | 未配置默认LLM或Embedding模型 | 进入模型配置页面,确认已正确配置并设置默认的LLM和Embedding模型。 |
API Key invalid | API密钥无效或已过期 | 检查模型提供商的API密钥是否正确,使用验证连接功能测试密钥有效性。如密钥已过期,请在模型提供商平台重新生成。 |
Connection timeout | 网络连接超时 | 检查网络连通性,确认知识平台所在环境能够访问模型提供商的API端点。如使用VPC网络,请确认安全组和白名单配置正确。 |
Model not found | 模型名称错误或不在提供商支持列表中 | 确认模型名称拼写正确,并检查该模型是否在对应提供商的可用模型列表中。 |