构建外部知识大脑——检索增强生成(RAG)应用

更新时间:
复制为 MD 格式

本实验通过在阿里云平台搭建检索增强生成(RAG)架构,结合数据分层治理、混合检索配置、合规化会话管理、多场景测试等环节,指导学生构建面向售后解答的智能对话原型,实现个性化、合规化的售后问题响应与结构化工单输出。​

实验任务:设计一个面向产品售后服务解答的专用聊天机器人

一、实验目标

  • 本实验通过在阿里云平台搭建检索增强生成(RAG)架构,结合知识库分层治理、混合检索配置、基础会话管理等环节、多场景测试等环节,指导学生构建面向售后解答的智能对话原型,实现有据可依、合规清晰的售后问题响应。​

  • 完成本实验后,学生应能够:

    • 独立在阿里云百炼平台完成售后相关知识(产品手册、保修政策等)的接入与检索配置;

    • 掌握 RAG 技术在售后场景的应用逻辑,以及 "关键词 + 向量" 混合检索的基础配置方法;

    • 设计包含证据引用与操作指引的售后解答模板,并配置基于阈值的追问/拒答机制;

    • 实现基本会话上下文管理,搭建符合教学要求的隐私保护机制(隐私提示、关键操作记录);

    • 用典型对话示例覆盖常见售后场景,对比不同提示词策略的效果,形成优化后的提示词模板。

二、实验介绍

售后解答的准确性、个性化与合规性,直接影响用户满意度与品牌信任度。但传统"通用问答"无法结合用户身份、产品信息及地区政策差异,易出现答案"空话化""幻觉化",难以解决"某型号产品是否保修、如何报修"等实际问题。本实验通过在阿里云百炼平台搭建 RAG 架构,接入模拟的产品说明书、售后政策等教学知识库,结合知识分层配置、混合检索设置、基础会话管理等策略,引导学生掌握售后智能对话原型的构建逻辑,实现"有证据、可追溯"的售后解答。

三、相关知识点

售后智能对话原型的核心是通过 RAG 技术链接"用户需求"与"精准知识",相关关键概念包括:

  • 检索增强生成(RAG):通过检索外部知识库(如产品手册、售后政策),为大语言模型提供精准信息支撑,避免纯生成模型的"幻觉"问题,提升答案准确性与可追溯性;

  • 知识分层配置与混合检索:将结构化数据(产品型号、保修期限)与非结构化知识(产品手册、政策)合理组织,结合"关键词检索(精准匹配产品型号等)+ 向量检索(理解语义)",实现高效知识定位;

  • 基础会话管理:维护用户对话上下文,确保多轮对话连贯性;在模拟环境中仅使用必要信息字段,体现数据隐私保护理念;

  • 低置信度控制策略:通过设置置信度阈值,对信息不足、匹配度低的问题触发追问(如"请提供产品型号以便查询")或直接拒答,避免无依据作答。

四、实验环境配置

  1. 平台与工具:阿里云百炼平台(Bailian Studio)

  2. 硬件要求:联网计算机

  3. 软件环境:Web浏览器(建议Chrome)

  4. 资源文件:示例文档产品售后_example.docx

  5. 账户设置:注册阿里云账号并完成高校师生认证;开通阿里云百炼应用开发权限

  6. 模型选择:千问-plus 或千问-plus-latest

五、实验内容与步骤

  1. 实验室资源方式简介

    进入实操前,请确保阿里云账号满足以下条件:

    • 个人账号资源

      • 使用您个人的云资源进行操作,资源归属于个人。

      • 所有实验操作将保留至您的账号,请谨慎操作。

      • 平台仅提供手册参考,不会对资源做任何操作。

    • 确保已完成云工开物300元代金券领取。

    • 已通过实名认证且账户余额≥0元。

    • 本实验费用以实际使用的token量为准,以千问-Plus为例,输入 0.0008元/千tokens,输出0.002元/千tokens。

    • 本实验产生的费用优先使用优惠券。如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。

    • 实操结束后,如通过云工开物代金券购买的产品,无需进行注销;如注销产品,代金券不会返还。

    • 新注册阿里云百炼的用户,千问系列模型提供模型的免费额度,不同模型的免费额度不同,请在使用前,先阅读产品文档确认模型的免费额度,或在使用前,登录阿里云百炼-模型广场-模型卡片详情,查看具体模型的免费额度。注意在使用过程中的token消耗。模型列表 只有开通阿里云百炼服务后才能体验模型的免费额度。

  2. 领取实验算力资源

    • 第一步:点击“进入实操”

      在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

      image

    • 第二步:领取300元优惠券

      本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

      image

      重要

      实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

      学生认证

  3. 登录阿里云百炼

    • 在阿里云官网搜索阿里云百炼进入控制台,或点击进入阿里云百炼控台,点击【应用开发

      image

    • 若之前未登录开通过阿里云百炼请按以下步骤操作,若已开通过百炼服务请跳过此步

      • 进入【应用开发】—【应用管理】,点击【立即登录】

        image

      • 阅读服务协议并点击【同意】

        image

  4. 上传数据,构建知识索引

    • 可点击下载示例文档:产品售后_example.docx

    • 点击【应用开发】—【应用数据】,选择【默认类目】,选择数据类型为【文件】,点击【导入数据】

      image

    • 导入方式选择【本地上传】,选择【点击或拖拽上传文件】,上传刚才下载的示例文件,上传后点击【确认】

      image

    • 导入数据将根据数据量大小需要一定的时间,在此期间等待数据转为“导入完成”的状态(通过手动点击刷新按钮)

      image

  5. 创建知识索引

    • 数据导入完成后,需要创建一个知识索引,在阿里云百炼的左侧导航栏中,点击【知识库】—【创建知识库】

      image

    • 输入知识库名称,知识库类型及使用场景请按情况选择,此处保持默认选项即可,点击【下一步】

      image

    • 数据来源有多种选择方式,此处可以点击【选择文件】按钮,在选择文件处,选到上一步上传知识库的类目,并勾选到该示例文件,点击【下一步】

      image

      image

    • 系统自动进行文档解析。文档解析需要一定时间,请您耐心等待,直至状态变更为“解析完成”状态,才能在后续的文档问答过程中被检索到。

      image

      重要

      注意:

      如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

  6. 创建应用

    • 点击【应用开发】—【应用管理】—【创建应用】

      image

    • 选择【智能体应用】,输入应用名称,点击【立即创建】

      image

    • 创建成功的界面。

      image

    • 选择模型,模型可选择:千问-plus千问-plus-latest模型,可以在下拉列表中进行选择,若其中没有需要的模型,点击【更多模型】,在搜寻框输入搜索。

      image

      image

  7. 知识库检索增强

    • 添加知识库,点击【知识】—【文档】,把创建的知识库添加进来。

      image

    • 点击【知识—文档—调试】,在这设置知识库召回的规则。可以根据具体的需求做一个设置。也可以参照截图来设置。设置好后点击【保存】

      image

      image

      说明

      ·拼装策略:用于平衡知识库召回结果的全面性和性能,可选择按召回数量或按拼装长度。(按召回数量可以满足对输入信息量有明确要求的场景。拼装长度 则能最大限度地利用输入空间。)

      ·最大拼装长度:从知识库召回的文本切片会被拼装成连贯的文本供大模型参考,但存在字符数上限。超过该长度时,文本将被强制切割,超出部分将被丢弃。增大该值通常会召回更多和用户查询可能相关的内容,但也会增加每次问答的响应时延。

  8. 设置提示词prompt

    • 明确学习助手的角色和技能

      使用阿里云百炼提供的prompt自动优化功能来优化prompt。

      image

      优化完成后,可点击【立即使用】

      image

      该部分可参考的优化后的prompt:

      # 角色
      你是一位专业的售后服务RAG智能聊天机器人,基于阿里云平台搭建的分层知识库(包括结构化核心数据、非结构化知识文档和动态合规数据),为用户提供精准化、合规化且带证据支撑的售后问题响应。你的核心目标是解决用户在“订单保修查询、产品故障处理、售后流程咨询”等方面的需求,同时严格遵循数据隐私保护与低置信度控制规则。
      ## 技能
      ### 技能1: 知识库调用与检索
      - **知识分层检索优先级**:
        - 当用户问题涉及“订单状态、保修资格、历史服务记录”时,优先调用【结构化核心数据】。通过关键词检索匹配订单号/SKU,并仅在用户授权后拉取“必需字段”,如仅返回“是否在保”而非完整订单信息。
        - 当用户问题涉及“产品操作步骤、故障排查方法、售后政策细节”时,优先调用【非结构化知识文档】。通过向量检索匹配语义相关段落,如用户问“洗衣机不进水”,需定位“故障排查 - 进水问题”对应切片,并引用文档中的“自查步骤”作为证据。
        - 当用户问题涉及“临时服务时效、政策变更、隐私授权”时,需调用【动态合规数据】。校验信息时效性,如“春节期间服务时效”需匹配最新时间戳规则,隐私提示需使用标准化话术模板。
      - **混合检索触发条件**:
        - 若仅通过关键词检索无法获取完整信息(如用户提供订单号但需补充“故障类型对应政策”),需自动联动向量检索,从非结构化文档中匹配相关政策段落,形成“订单数据 + 政策依据”的组合回答。
        - 若仅通过向量检索无法定位精准信息(如用户描述“买的冰箱坏了”但未提供订单号),需触发关键词检索补全——先追问用户“请提供订单号或产品SKU,以便查询您的保修资格”,不可直接基于模糊语义作答。
      ### 技能2: 回答输出规范
      - **结构化回答模板**:
        - 所有回答需包含“核心结论 + 证据来源 + 操作指引”三部分,示例如下:
          - 核心结论:您的订单(订单号:123456)所购冰箱(SKU:BCD-210W)仍在保修期内(购买时间 2024.03.15,保修期限 3 年)。
          - 证据来源:结构化数据 - 订单核心记录(购买时间字段)、非结构化文档 - 保修政策(“冰箱类产品保修 3 年”段落,文档 ID:POL-2024-001)。
          - 操作指引:您可通过以下步骤申请保修:1. 打开APP→
      ## 限制
      - 专注于解答与售后服务相关的用户问题,如订单保修查询、产品故障处理、售后流程咨询等。
      - 严格遵循数据隐私保护与低置信度控制规则,确保用户数据安全。
      - 在提供答案时,必须基于知识库中的准确信息,避免引入个人观点或偏见。
      - 回答内容应保持清晰、简洁,易于用户理解。
  9. 拓展智能体能力

    阿里云百炼智能体应用有一些拓展智能体能力的方法,可选择性开启

    • 此处可以开启联网搜索、知识库过滤以及样例库

      image

    • 此处可以接入检索增强生成功能

      image

    • 说明

      常用能力介绍

      视觉:允许用户上传图片,使用模型的视觉能力(此处需要前面选择视觉模型才可以使用该效果);

      知识库:提升私域知识问答能力;

      动态文件解析:允许用户上传文件,使用预置算法解析文件,支持用户对文件内容进行问答;

      联网搜索:依据场景触发联网搜索;

      MCP服务:模型通过标准化协议(MCP)连接企业内部服务API并发起调用;

      插件:调用外部 API,扩展智能体的能力和使用场景。

  10. 结果测试


    RAG 售后智能体典型场景测试脚本:

    例如订单保修查询(核心验证 “关键词检索 + 授权合规 + 证据引用”)

    测试目标:

    • 验证智能体在用户未提供订单号时的追问逻辑;

    • 验证用户授权后,智能体调用结构化数据精准判断保修状态的能力;

    • 验证回答中 “核心结论 + 证据来源” 的完整性。


    image

    • 用户1

      我的冰箱坏了,想看看还在不在保修期内
      需触发追问:“为查询您的冰箱保修状态,请提供订单号或产品 SKU(如 BCD-210W),以便匹配您的购买信息”
      低置信度处理(信息缺失→追问)
      

      image

    • 用户2

      订单号是 202411010089,SKU 是 BCD-320W
      1. 先发起授权提示:“为查询订单 202411010089 的保修信息,需获取您的订单数据授权,授权后仅用于本次会话查询,不会存储完整信息,是否同意?”2. 用户同意后,输出结构化回答:・核心结论:您的订单(订单号:202411010089)所购冰箱(SKU:BCD-320W)仍在保修期内(购买时间 2024.05.20,保修期限 3 年,当前剩余保修时长 2 年 6 个月)・证据来源:结构化数据 - 订单核心记录(购买时间字段、SKU 字段)、非结构化文档 - 冰箱类售后政策(“家用冰箱保修期限 3 年” 段落,文档 ID:POL-B-2024)・操作指引:若需维修,可通过 “APP→售后→报修申请” 提交需求,支持上传故障照片加速处理
      

      image

    • 用户3

      我朋友的订单号 202410250067,能帮他查下保修吗?
      输出拒答:“根据隐私政策与售后规则,无法为您提供非本人订单查询服务,如需进一步帮助,建议您的朋友使用本人账号咨询或提供其授权证明”
      隐私合规(拒绝查询他人订单)
      

      image

    • 在模型自动优化的prompt基础上,根据测试结果,可以再对prompt进行调优。

  11. 智能体发布

    • 在测试结束之后,可以点击右上角发布按钮,将应用发布。点击右上角【发布】

      image

      说明

      需注意体验窗为测试草稿版本,如未发布,可在草稿版中进行测试。如已发布需测试发布版本,需要切换到发布版。

    • 可对该智能体进行版本描述,确认无误后点击【确认发布】

      image

    • 发布后可查看发布渠道。

      image

    • 发布后,可以在发布渠道中查看智能体不同的发布渠道,目前支持API调用,在钉钉机器人、微信公众号等渠道。现在就可以在这些渠道中将这个写好的应用配置上去,分享给他人使用啦。

      image

  12. 实验资源释放

    重要

    注意:

    1. 实验结束后,阿里云百炼账号无需注销

    2. 但如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

    3. 在阿里云百炼,模型训练部署等需要付费,请谨慎操作。模型体验、构建应用等需要消耗Token,在测试前请先确认是否有免费额度或云工开物券还有余额。

六、结果与验证

  • 本实验围绕 “面向家电售后的 RAG对话系统构建”,预期输出以下核心成果,覆盖功能落地与优化迭代两大维度:

    RAG对话系统核心功能输出

    • 1 套完整的 "知识库配置方案":包含示例产品数据(型号/保修期限表)检索配置、非结构化文档(产品手册/售后政策)分块策略,以及基础合规内容(隐私提示模板)的使用规则,需附百炼平台知识库配置截图。

    • 3 版差异化 Prompt 模板:分别对应"基础版(实现核心检索与回答)""合规增强版(增加隐私提示与低置信度处理)""品类优化版(针对冰箱/洗衣机等家电特性优化)",需说明各版本的关键改进点与效果差异。

    • 5 组典型对话测试记录:涵盖"产品保修查询""故障处理指导""信息不足追问""不同品类区分""超期产品说明"场景,每组记录需包含"用户问题 - 系统响应 - 人工评估"三部分。

  • 提示词对话结果的验证指标与评分参考表:

    指标

    评分(1-5)

    说明

    事实一致与可追溯

    检查是否存在新增或夸大事实

    体例与结构符合度

    摘要是否符合“背景-方法-结果-结论”逻辑

    可读性与信息密度

    语言是否专业且信息集中

    目标读者针对性

    语调与领域术语是否匹配

    过程透明度

    逻辑流是否清晰易懂

七、拓展与思考

  • 提示策略对智能体性能的边际收益分析

  • “自评—在写”闭环对体例一致性的影响

  • 实验模板的跨场景迁移路径

  • 幻觉与误引的防范机制探索

八、常见问题

大模型部署与提示词交互实验的常见问题与解决方案表:

常见问题

解决方案

PAI-EAS部署失败

检查region是否支持LLM部署或切换区域

调用错误品牌政策

品牌建索引、Prompt 加品牌检索约束、提向量相似度至 75%+

多轮记忆丢失

开启会话态管理(30 分钟有效期)、Prompt 加记忆规则

隐私授权缺失

Prompt 强制授权提示、录入标准化话术到知识库

九、实验报告要求

基于实验学生应提交完整的实验报告,要求包含以下内容:实验目的与任务描述;实验环境配置截图;

  • 三版以上Prompt与生成摘要对比结果;

  • Prompt 原文、服务参数、知识库摘要;

  • 对“七、拓展与思考”问题的回答;

  • 实验总结与个人反思。

十、关闭实验

  • 完成实验后,点击 结束实操

    image

  • 点击 取消 回到实验页面,点击 确定 退出实验界面,关闭页面结束实验

    image

    说明

    阿里云百炼账号无需注销,如后续不再使用阿里云百炼知识库,请确认是否有在实验结束后删除知识库,以避免不必要的扣费