基于GraphRAG生成高质量QA对
本文介绍如何利用云原生数据仓库 AnalyticDB PostgreSQL 版GraphRAG能力生成高质量QA对。
传统方式生成QA对
当前问答类智能客服系统主要依赖于QA知识库构建其对话能力,但传统的知识库构建方式存在明显局限。现有知识体系通常基于人工客服的历史应答记录,通过周期性的人工筛选将高频、优质的QA对纳入知识库。这种以经验为主导的构建模式存在以下问题:
知识更新滞后,响应机制被动。当产品文档或业务规则发生变更时,知识库的更新完全依赖用户的提问触发,形成“需求倒逼知识更新”的被动响应机制。这种滞后不仅削弱了知识库的时效性和服务效率,还可能因信息不一致导致客户误解甚至引发服务风险。
内容质量不稳定,依赖人力筛选。由于人工应答受个体认知水平和表达习惯影响较大,答案质量参差不齐,需耗费大量人力资源做后期整理与质量把控,方可满足知识库收录标准,显著增加了维护成本。
冷启动阶段效果受限,依赖人工介入频繁。在知识库初期建设阶段,由于缺乏足够的高质量问答数据,系统服务能力较弱,用户交互过程中频繁需要人工客服介入,造成较大的人力负担,也限制了智能客服系统的快速部署与应用。
LLM生成QA对
为弥补传统依赖人工经验构建QA知识库所带来的效率低下与质量不稳等问题,业界引入了大语言模型(LLM)技术,实现QA对的自动化批量生成。然而,在实际应用中发现,通过Dify等低代码开发平台构建的工作流在生成QA对时仍存在一系列系统性缺陷。实证研究表明,当前基于文档信息抽取的自动化流程主要面临以下问题:
生成质量不稳定,细节把控不足。 实际测试表明,通过Dify工作流生成的QA对质量参差不齐,尤其在处理复杂或专业性强的文档时,容易忽略文本中隐含的知识点和语义细节,导致生成的QA对缺乏准确性与完整性,难以满足业务场景下的精准服务需求。
跨文档知识整合能力薄弱。 Dify工作流仅支持单文档维度的信息抽取,无法实现多文档之间的知识关联与融合,也难以构建具备语义关联性的知识图谱网络。这导致生成的QA对仅局限于局部语境,缺乏全局视角,限制了问答系统的综合推理与泛化能力。
提示词依赖人工调优,流程自动化程度有限。 为提升生成效果,需频繁进行提示词(prompt)的调整与优化,依赖大量人工干预。这种方式不仅增加了使用门槛,也降低了整个流程的自动化水平,影响了大规模部署与持续迭代的可行性。
利用GraphRAG生成QA对
GraphRAG服务是云原生数据仓库 AnalyticDB PostgreSQL 版推出的一套可快速部署的检索增强生成(RAG)解决方案,深度融合了知识图谱能力。相比传统基于向量的RAG方法,GraphRAG在处理多文档场景下的复杂关系建模、多跳推理与知识关联方面具有显著优势。
该服务整体流程分为三个核心阶段:
索引生成:通过知识抽取模型对文档进行识别与关系抽取,生成结构化知识图谱,并存储至AnalyticDB for PostgreSQL图引擎中。
语义检索:利用知识抽取模型,对用户Query进行知识抽取与关键词提取,基于抽取结果在图引擎中执行子图遍历,快速定位相关联的子图结构,获取上下文信息。
生成结果:将用户Query与检索到的子图上下文输入大语言模型,由模型融合语义与图数据生成高质量的回答或分析结果。
前提条件
已上传相关文档至GraphRAG应用。
生成高质量Query
GraphRAG服务支持将用户上传的文档内容,自动抽取为向量表示及结构化的知识图谱,并存储于 AnalyticDB for PostgreSQL图分析引擎中。在该体系下,用户仅需输入自然语言问题(Query),即可获取高质量的回答(Answer)。因此,构建高质量QA样本的核心,已从“如何生成答案”转变为“如何生成高质量Query”。
由于AnalyticDB for PostgreSQL已整合多份文档中抽取的知识图谱信息,具备跨文档的关系建模能力,因此只需提供合适的语义引导,即可激活图谱中的实体与关系网络,从而生成具有上下文关联性与跨文档特性的高质量Query。
基于该功能,阿里云提出一种基于“元Query”的方法,通过指令引导大模型从多个文档和功能模块中自动生成多样化、语义丰富的Query。
元Query示例:
在GraphRAG应用Retrieval页面的对话框输入以下文字,使其生成Query。
请根据文档1、文档2、文档3等内容,从 模块1、模块2、模块3等维度出发,提取出50 个高质量的问题,用于回答用户在使用该产品过程中可能提出的各类疑问。
生成高质量Answer
将生成的Query依次通过AnalyticDB for PostgreSQLGraphRAG应用的检索功能提问,系统将基于向量与知识图谱的融合能力,返回跨文档、结构化的高质量回答。在确认生成的QA对符合知识库质量要求后,即可将其导入知识库,完成问答数据的自动化构建。
业务案例
以下展示了某头部电商客户在分别使用Dify工作流和云原生数据仓库 AnalyticDB PostgreSQL 版GraphRAG能力生成QA对的实际输出对比,体现了两种方法在问答质量、信息完整性与跨文档理解能力方面的差异。
生成Query
Dify工作流生成的Query | GraphRAG生成的Query |
| 产品名称相关问题:
主要功能相关问题:
功能路径相关问题:
使用场景相关问题:
关键指标相关问题:
口径说明相关问题:
售后服务相关问题:
销售业绩相关问题:
其他相关问题:
综合性问题:
|
通过对比基于Dify生成的Query与GraphRAG生成的Query可以看出:
Dify生成的Query多为结构简单、范围局部的问题,通常聚焦于单一功能或文档关键词,用户可通过关键字直接在文档中查找到对应答案。
GraphRAG生成的Query则呈现出更高的复杂度和实用性,覆盖从局部到全局的知识维度,更贴近真实用户的提问方式,往往涉及跨文档理解与多跳推理,具有更强的语义表达能力和实际应用价值。
生成Answer
Dify工作流生成的Answer | GraphRAG生成的Answer |
如何生成周期性的业绩报告用于复盘和考核? 销售业绩报告中的业绩报告模块提供了日报、周报、月报等不同时间周期的报表,并分为汇总、平台/分销、店铺/分销商、店铺分组四个维度,其中月报还融入了业绩目标和完成进度,方便运营人员快速生成周期性业绩报告。 | 销售业绩报告如何支持销售团队的业绩评估? 销售业绩报告是销售团队进行业绩评估的重要工具。它提供了多维度的数据分析和目标监控功能,帮助团队高效地评估销售表现、发现问题并优化策略。以下是销售业绩报告支持销售团队业绩评估的主要方式。
总结 销售业绩报告通过目标设置、多维度数据分析、趋势分析、退款与售后评估、快捷查询以及实时数据支持等功能,为销售团队提供了全面且高效的业绩评估工具。这些功能不仅帮助团队精准定位业绩增长或下降的原因,还能指导团队优化运营策略,提升整体销售表现。 References [KG] 销售业绩报告新版本.pdf [KG] 数据门户.pdf [DC] 销售业绩报告新版本.pdf [KG] relation.txt [KG] 实时商品分析.pdf |
在相同Query输入条件下,Dify工作流的回答局限于对单一文档内容的引用与重复,缺乏上下文理解与信息整合能力。而GraphRAG则依托知识图谱与向量检索机制,有效整合多文档中的相关知识,输出更具逻辑性和信息密度的回答,显著提升了问答结果的质量与实用性。