使用GraphRAG生成高质量QA对-云原生数据仓库AnalyticDB-阿里云

本文介绍如何利用云原生数据仓库 AnalyticDB PostgreSQL 版GraphRAG能力生成高质量QA对。

传统方式生成QA对

当前问答类智能客服系统主要依赖于QA知识库构建其对话能力，但传统的知识库构建方式存在明显局限。现有知识体系通常基于人工客服的历史应答记录，通过周期性的人工筛选将高频、优质的QA对纳入知识库。这种以经验为主导的构建模式存在以下问题：

知识更新滞后，响应机制被动。当产品文档或业务规则发生变更时，知识库的更新完全依赖用户的提问触发，形成“需求倒逼知识更新”的被动响应机制。这种滞后不仅削弱了知识库的时效性和服务效率，还可能因信息不一致导致客户误解甚至引发服务风险。
内容质量不稳定，依赖人力筛选。由于人工应答受个体认知水平和表达习惯影响较大，答案质量参差不齐，需耗费大量人力资源做后期整理与质量把控，方可满足知识库收录标准，显著增加了维护成本。
冷启动阶段效果受限，依赖人工介入频繁。在知识库初期建设阶段，由于缺乏足够的高质量问答数据，系统服务能力较弱，用户交互过程中频繁需要人工客服介入，造成较大的人力负担，也限制了智能客服系统的快速部署与应用。

LLM生成QA对

为弥补传统依赖人工经验构建QA知识库所带来的效率低下与质量不稳等问题，业界引入了大语言模型（LLM）技术，实现QA对的自动化批量生成。然而，在实际应用中发现，通过Dify等低代码开发平台构建的工作流在生成QA对时仍存在一系列系统性缺陷。实证研究表明，当前基于文档信息抽取的自动化流程主要面临以下问题：

生成质量不稳定，细节把控不足。实际测试表明，通过Dify工作流生成的QA对质量参差不齐，尤其在处理复杂或专业性强的文档时，容易忽略文本中隐含的知识点和语义细节，导致生成的QA对缺乏准确性与完整性，难以满足业务场景下的精准服务需求。
跨文档知识整合能力薄弱。 Dify工作流仅支持单文档维度的信息抽取，无法实现多文档之间的知识关联与融合，也难以构建具备语义关联性的知识图谱网络。这导致生成的QA对仅局限于局部语境，缺乏全局视角，限制了问答系统的综合推理与泛化能力。
提示词依赖人工调优，流程自动化程度有限。为提升生成效果，需频繁进行提示词（prompt）的调整与优化，依赖大量人工干预。这种方式不仅增加了使用门槛，也降低了整个流程的自动化水平，影响了大规模部署与持续迭代的可行性。

利用GraphRAG生成QA对

GraphRAG服务是云原生数据仓库 AnalyticDB PostgreSQL 版推出的一套可快速部署的检索增强生成（RAG）解决方案，深度融合了知识图谱能力。相比传统基于向量的RAG方法，GraphRAG在处理多文档场景下的复杂关系建模、多跳推理与知识关联方面具有显著优势。

该服务整体流程分为三个核心阶段：

索引生成：通过知识抽取模型对文档进行识别与关系抽取，生成结构化知识图谱，并存储至AnalyticDB for PostgreSQL图引擎中。
语义检索：利用知识抽取模型，对用户Query进行知识抽取与关键词提取，基于抽取结果在图引擎中执行子图遍历，快速定位相关联的子图结构，获取上下文信息。
生成结果：将用户Query与检索到的子图上下文输入大语言模型，由模型融合语义与图数据生成高质量的回答或分析结果。

前提条件

已搭建Graph RAG Service应用。
已上传相关文档至GraphRAG应用。

生成高质量Query

GraphRAG服务支持将用户上传的文档内容，自动抽取为向量表示及结构化的知识图谱，并存储于 AnalyticDB for PostgreSQL图分析引擎中。在该体系下，用户仅需输入自然语言问题（Query），即可获取高质量的回答（Answer）。因此，构建高质量QA样本的核心，已从“如何生成答案”转变为“如何生成高质量Query”。

由于AnalyticDB for PostgreSQL已整合多份文档中抽取的知识图谱信息，具备跨文档的关系建模能力，因此只需提供合适的语义引导，即可激活图谱中的实体与关系网络，从而生成具有上下文关联性与跨文档特性的高质量Query。

基于该功能，阿里云提出一种基于“元Query”的方法，通过指令引导大模型从多个文档和功能模块中自动生成多样化、语义丰富的Query。

元Query示例：

在GraphRAG应用Retrieval页面的对话框输入以下文字，使其生成Query。

请根据文档1、文档2、文档3等内容，从模块1、模块2、模块3等维度出发，提取出50 个高质量的问题，用于回答用户在使用该产品过程中可能提出的各类疑问。

生成高质量Answer

将生成的Query依次通过AnalyticDB for PostgreSQLGraphRAG应用的检索功能提问，系统将基于向量与知识图谱的融合能力，返回跨文档、结构化的高质量回答。在确认生成的QA对符合知识库质量要求后，即可将其导入知识库，完成问答数据的自动化构建。

业务案例

以下展示了某头部电商客户在分别使用Dify工作流和云原生数据仓库 AnalyticDB PostgreSQL 版GraphRAG能力生成QA对的实际输出对比，体现了两种方法在问答质量、信息完整性与跨文档理解能力方面的差异。

生成Query

Dify工作流生成的Query

GraphRAG生成的Query

销售业绩报告的主要功能模块有哪些？
销售业绩报告的数据默认排除哪些订单类型？
如何设置全年目标和大促目标？
如何监控目标完成进度？
如何定位业绩波动的具体原因？
周期性报告（日报、周报、月报）的生成规则是什么？
如何导出数据明细？
如何自定义数据展示字段？
不同用户角色的数据权限如何控制？
核心指标的定义是什么？
如何切换数据视角（平台/分销商/店铺分组）？
移动端如何查看数据？
是否可以将目标拆解到每个团队？
什么是环⽐进度？
如何查看平均发货时长？
如何查看实时数据门户？
如何查看店铺分组的动销店铺？

产品名称相关问题：

什么是实时数据门户？
销售业绩报告的主要功能是什么？
数据智能移动端有哪些主要特点？
全局管理包括哪些产品？
实时数据大屏有哪些应用场景？

主要功能相关问题：

实时数据门户如何帮助用户查看销售动态？
销售业绩报告如何支持销售团队的业绩评估？
移动端应用如何提升数据访问的灵活性？
业绩监控模块有哪些具体功能？
核心指标卡片展示了哪些关键指标？

功能路径相关问题：

如何通过销售业绩报告跳转到实时数据门户？
用户如何在销售业绩报告中选择特定店铺或分销商？
配置统计规则如何影响销售业绩报告中的数据展现？
产品手册如何辅助用户理解和使用销售业绩报告？
如何使用意见反馈功能提出改进建议？

使用场景相关问题：

老板或运营主管如何利用销售业绩报告制定销售目标？
运营人员如何通过业绩总览模块分析业绩波动原因？
日报、周报、月报在内部汇报和绩效评估中如何使用？
店铺分组销售目标设定如何帮助商家进行分类管理？
视角切换功能如何增强报告使用的灵活性？

关键指标相关问题：

净销售额是如何计算的？
销售金额的核心作用是什么？
销售订单数反映哪些客户购买行为？
核心指标卡片默认排除哪些订单？
业绩完成进度依赖哪些数据进行对比分析？

口径说明相关问题：

默认口径中特殊单和统计排除标订单如何处理？
组合商品拆分与否对统计结果有何影响？
ERP售后单确认状态与平台订单售后状态有何区别？
为什么实时数据门户的数据可能与订单页面不一致？
已取消的订单是否会被纳入实时数据门户的统计范围？

售后服务相关问题：

售后实时预警有哪些具体功能？
热销商品售后分析如何帮助商家优化售后服务？
商品售后原因分析如何帮助减少退货率？
渠道售后原因分析如何提升售后服务质量？
物流实时预警如何帮助商家应对物流问题？

销售业绩相关问题：

业绩监控模块如何帮助商家设定销售目标？
业绩总览模块从哪些维度展示详细数据？
业绩报告模块如何生成不同周期的报表？
店铺/分销商维度如何用于精细化运营分析？
权限范围如何控制子账号可见的数据内容？

其他相关问题：

意见反馈功能如何增强用户体验？
快捷查询功能如何提高用户效率？
全年目标卡片如何展示年度销售情况？
业绩趋势图如何展示今年和去年的业绩数据？
视图切换如何影响全年目标卡片的数据汇总？

综合性问题：

为什么有的账号看不到业绩监控板块的内容？
不同账号看到的数据为何会有所不同？
实体编码是按普通商品编码还是子商品统计？
自营店铺数据里为何看不到档口开单的订单数据？
实时数据门户如何确保数据的安全性和准确性？

通过对比基于Dify生成的Query与GraphRAG生成的Query可以看出：

Dify生成的Query多为结构简单、范围局部的问题，通常聚焦于单一功能或文档关键词，用户可通过关键字直接在文档中查找到对应答案。
GraphRAG生成的Query则呈现出更高的复杂度和实用性，覆盖从局部到全局的知识维度，更贴近真实用户的提问方式，往往涉及跨文档理解与多跳推理，具有更强的语义表达能力和实际应用价值。

生成Answer

Dify工作流生成的Answer

GraphRAG生成的Answer

如何生成周期性的业绩报告用于复盘和考核？

销售业绩报告中的业绩报告模块提供了日报、周报、月报等不同时间周期的报表，并分为汇总、平台/分销、店铺/分销商、店铺分组四个维度，其中月报还融入了业绩目标和完成进度，方便运营人员快速生成周期性业绩报告。

销售业绩报告如何支持销售团队的业绩评估？

销售业绩报告是销售团队进行业绩评估的重要工具。它提供了多维度的数据分析和目标监控功能，帮助团队高效地评估销售表现、发现问题并优化策略。以下是销售业绩报告支持销售团队业绩评估的主要方式。

目标设置与完成进度监控。
销售业绩报告允许团队设定全年目标、月度目标以及大促目标，并将目标分解到店铺分组或单个店铺。通过这种方式，销售团队可以清晰地了解每个团队或店铺的目标完成情况。
全年目标与月度目标：销售团队可以按销售金额或净销售金额设置目标，并实时监控完成进度。例如，当团队未完成目标时，系统会显示当前业绩与目标之间的差距，便于及时调整策略。
大促目标：在大型促销活动（如6.18、11.11、12.12）前，团队可以提前设置促销目标，并通过报告跟踪实际业绩与目标的对比情况。
多维度数据分析。
销售业绩报告从多个维度提供详细的数据指标，帮助团队深入分析业绩变化的原因。
平台/分销维度：报告提供了平台和分销商的销售数据，便于团队定位哪些渠道表现优异或存在不足。
店铺/分销商维度：通过分析具体店铺或分销商的业绩，团队可以识别增长点和问题区域。
商品维度：报告能够进一步细化到商品层面，帮助团队了解哪些商品推动了业绩增长，哪些商品拖累了整体表现。
趋势分析与历史对比。
销售业绩报告通过趋势图和历史数据对比，为团队提供更直观的业绩评估视角。
日/月趋势图：团队可以选择查看本月与上月的每日业绩趋势，或今年与去年的每月业绩趋势，从而发现周期性波动规律。
环比与同比分析：报告计算了净销售金额、销售金额等关键指标的环比和同比变化率，帮助团队评估短期内的业绩增减情况以及长期的增长趋势。
退款与售后分析。
销售业绩报告还整合了退款和售后数据，帮助团队全面评估销售表现。
退款率分析：报告统计了发货前仅退款、发货后仅退款和退货退款的比例，帮助团队识别退款高发环节。
支付退款金额与件数：通过分析支付成功的订单中确认退款的金额和件数，团队可以评估退款对净销售金额的影响，从而优化运营策略。
快捷查询与导出功能。
销售业绩报告支持灵活的查询和导出功能，便于团队快速获取所需数据。
快捷查询：团队可以根据不同视图（如平台/店铺或分销商）保存常用查询条件，提高工作效率。
数据导出：报告支持导出明细记录，单次导出上限为3万条记录，方便团队进行离线分析或汇报。
实时数据支持。
销售业绩报告与实时数据门户结合使用，为团队提供最新的销售数据支持。
今⽇概览：团队可以通过实时数据门户获取今日的销售金额、净销售金额、退款金额等关键指标，及时掌握业务动态。
业绩监控板块：该板块展示了各店铺分组的业绩完成率，帮助团队实时跟踪销售进展。

总结

销售业绩报告通过目标设置、多维度数据分析、趋势分析、退款与售后评估、快捷查询以及实时数据支持等功能，为销售团队提供了全面且高效的业绩评估工具。这些功能不仅帮助团队精准定位业绩增长或下降的原因，还能指导团队优化运营策略，提升整体销售表现。

References

[KG] 销售业绩报告新版本.pdf

[KG] 数据门户.pdf

[DC] 销售业绩报告新版本.pdf

[KG] relation.txt

[KG] 实时商品分析.pdf

在相同Query输入条件下，Dify工作流的回答局限于对单一文档内容的引用与重复，缺乏上下文理解与信息整合能力。而GraphRAG则依托知识图谱与向量检索机制，有效整合多文档中的相关知识，输出更具逻辑性和信息密度的回答，显著提升了问答结果的质量与实用性。