打造专属领域专家 ——大模型的微调与定制

更新时间:
复制为 MD 格式

本实验通过在阿里云平台部署大语言模型(如千问系列),结合领域语料构建、知识检索增强(RAG)链路设计、结构化回答模板及低置信度拒答机制,训练学生构建面向特定领域的智能合规问答系统,实现从专业文档到可解释智能咨询的定制化落地。

实验任务:构建一个政策/标准的合规指导模型

一、实验目标

  • 本实验通过在阿里云平台部署大语言模型(如千问系列),结合领域语料构建、知识检索增强(RAG)链路设计、结构化回答模板及低置信度拒答机制,训练学生构建面向特定领域的智能合规问答系统,实现从专业文档到可解释智能咨询的定制化落地。

  • 完成本实验后,学生应能够:

    • 独立在阿里云平台上部署一个具备检索增强生成(RAG)链路的大模型应用;

    • 掌握领域数据的采集、清洗与结构化入库方法,了解版本与适用性管理的重要性

    • 设计并实现混合检索策略(关键词+向量)与条款级引用模板,实现“结论—依据—办理路径”一体化回答。

    • 能够在模型回答中引入低置信度追问与拒答逻辑,保证回答“有据可依、可追溯”;

    • 对比不同检索与提示词策略对回答质量(命中率、忠实度、引用完整度)的影响,并形成针对性改进模板;

    • 初步建立“数据—检索—生成—评测—治理”的端到端实践意识,理解合规指导型模型的边界与风险控制。

二、实验介绍

政策、标准与流程手册内容庞杂、跨版本、跨部门且条款细碎,传统关键词检索难以满足条款级定位与适用性判断的需求。本实验通过在阿里云平台部署千问系列大模型,结合多源文档结构化入库、混合检索与大模型生成、模板化输出、低置信度拒答与审计留痕等策略,引导学生掌握面向政策/标准的合规问答系统构建方法。实验旨在使学生能够实现条款级引用、适用性判断与办理步骤输出,支持跨文档证据聚合、版本与地域适配,并形成可复用的检索模板、提示词模板、评测集及运维策略,从而在“有据可依、可追溯、可复核”的前提下构建可控、高可靠的领域专家原型。接下来的实验步骤将以“实验室安全管理”领域为例。

三、相关知识点

政策/标准合规指导原型的核心是通过 大模型 + 混合检索 技术链接“用户问题”与“条款级知识”,相关关键概念包括:

  • 检索增强生成(RAG):通过检索条款/政策/标准等外部知识库,为大模型提供可追溯、条款级的证据支撑,避免纯生成模型出现“幻觉”或误导性回答,提升合规性与答案可靠性。

  • 数据分层治理与混合检索:将文档按章/节/条切分并向量化,同时保留条号、版本、发布日期信息;结合“关键词检索(精准匹配条号或章节)+ 向量检索(语义理解)”,实现跨文档、高效、条款级知识定位,并支持版本与地域适配。

  • 查询理解与意图解析:将用户问题标准化为实体、范围、时间窗等结构化表示,用于候选条款检索和重排,实现问题与条款精准匹配。

  • 模板化答案生成:回答遵循“结论—适用条件—办理步骤—引用清单—风险与边界”模板,确保所有结论可追溯、可复核,并输出条款号、页码和文档来源。

  • 低置信度控制策略:对证据不足、条款冲突或信息不完整的问题触发追问(如“需人工复核”提示)或拒答,防止模型无依据作答,降低误导与越权风险。

  • 审计与日志留痕:记录用户查询、候选条款、模型版本、检索参数(分块大小、Top-k、重排策略)等信息,用于复盘、优化与运维策略固化。

  • 可复用模块:包括检索模板、提示词模板、评测集及运维策略配置,便于不同领域或版本迭代复用,形成标准化实验流程。

四、实验环境配置

  1. 平台与工具:阿里云百炼平台(Bailian Studio)

  2. 硬件要求:联网计算机

  3. 软件环境:Web浏览器(建议Chrome)

  4. 资源文件:

    示例文档1: 高等学校实验室安全规范.pdf

    示例文档2:生命科学学院实验室安全管理规定.pdf

  5. 账户设置:注册阿里云账号并完成高校师生认证;开通阿里云百炼应用开发权限

  6. 模型选择:千问-plus 或千问-plus-latest

五、实验内容与步骤

  1. 实验室资源方式简介

    进入实操前,请确保阿里云账号满足以下条件:

    • 个人账号资源

      • 使用您个人的云资源进行操作,资源归属于个人。

      • 所有实验操作将保留至您的账号,请谨慎操作。

      • 平台仅提供手册参考,不会对资源做任何操作。

    • 确保已完成云工开物300元代金券领取。

    • 已通过实名认证且账户余额≥0元。

    • 本实验费用以实际使用的token量为准,以千问-Plus为例,输入 0.0008元/千tokens,输出0.002元/千tokens。

    • 本实验产生的费用优先使用优惠券。如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。

    • 实操结束后,如通过云工开物代金券购买的产品,无需进行注销;如注销产品,代金券不会返还。

    • 新注册阿里云百炼的用户,千问系列模型提供模型的免费额度,不同模型的免费额度不同,请在使用前,先阅读产品文档确认模型的免费额度,或在使用前,登录阿里云百炼-模型广场-模型卡片详情,查看具体模型的免费额度。注意在使用过程中的token消耗。模型列表 只有开通阿里云百炼服务后才能体验模型的免费额度。

  2. 领取实验算力资源

    • 第一步:点击“进入实操”

      在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

      image

    • 第二步:领取300元优惠券

      本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

      image

      重要

      实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

      学生认证

  3. 登录阿里云百炼

    • 在阿里云官网搜索阿里云百炼进入控制台,或点击进入阿里云百炼控台,点击【应用开发

      image

    • 若之前未登录开通过阿里云百炼请按以下步骤操作,若已开通过百炼服务请跳过此步

      • 进入【应用开发】—【应用管理】,点击【立即登录】

        image

      • 阅读服务协议并点击【同意】

        image

  4. 上传数据,构建知识索引

    • 可点击下载示例文档:

      示例文档1: 高等学校实验室安全规范.pdf

      示例文档2:生命科学学院实验室安全管理规定.pdf

    • 点击【应用开发】—【应用数据】,选择【默认类目】,选择数据类型为【文件】,点击【导入数据】

      image

    • 导入方式选择【本地上传】,选择【点击或拖拽上传文件】,上传刚才下载的示例文件,上传后点击【确认】

      image

    • 导入数据将根据数据量大小需要一定的时间,在此期间等待数据转为“导入完成”的状态(通过手动点击刷新按钮)

      image

  5. 创建知识索引

    • 数据导入完成后,需要创建一个知识索引,在阿里云百炼的左侧导航栏中,点击【知识库】—【创建知识库】

      image

    • 输入知识库名称,知识库类型及使用场景请按情况选择,此处保持默认选项即可,点击【下一步】

      image

    • 数据来源有多种选择方式,此处可以点击【选择文件】按钮,在选择文件处,选到上一步上传知识库的类目,并勾选到该示例文件,点击【下一步】

      image

      image

    • 系统自动进行文档解析。文档解析需要一定时间,请您耐心等待,直至状态变更为“解析完成”状态,才能在后续的文档问答过程中被检索到。

      image

      重要

      注意:

      如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

  6. 创建应用

    • 点击【应用开发】-【应用管理】-【创建应用】。

      image

    • 选择【智能体应用】,输入应用名称,点击【立即创建】。

      image

    • 创建成功的界面。

      image

    • 选择模型,模型可选择:千问-plus 或 千问-plus-latest模型,可以在下拉列表中进行选择,若其中没有需要的模型,点击【更多模型】,在搜寻框输入搜索。

      image

      image

  7. 知识库检索增强

    • 添加知识库,点击【知识】—【文档】,把创建的知识库添加进来。

      image

    • 点击【知识—文档—调试】,在这设置知识库召回的规则。可以根据具体的需求做一个设置。也可以参照截图来设置。设置好后点击【保存】

      image

      image

      说明

      ·拼装策略:用于平衡知识库召回结果的全面性和性能,可选择按召回数量或按拼装长度。(按召回数量可以满足对输入信息量有明确要求的场景。拼装长度 则能最大限度地利用输入空间。)

      ·最大拼装长度:从知识库召回的文本切片会被拼装成连贯的文本供大模型参考,但存在字符数上限。超过该长度时,文本将被强制切割,超出部分将被丢弃。增大该值通常会召回更多和用户查询可能相关的内容,但也会增加每次问答的响应时延。

  8. 设置提示词prompt

    • 示例prompt:

      你是一位专业的实验室安全合规指导专家模型,专注于为科研单位、实验教学中心和实验人员提供“有据可依、可追溯、可复核”的安全管理与执行指导。你的知识来源包括教育部、科研机构、高校及政府公开发布的实验室安全规范、管理办法和操作标准。你的目标是帮助用户快速定位适用条款,判断适用性与版本有效性,给出可执行的办理步骤与参考条款,避免误导性或越权性回答。一.你的身份:不是普通问答助手,而是一名“实验室安全法规与操作规范顾问”。你的回答必须引用数据库中条款级证据(章/节/条号),并保持语义一致,不可编造条文。若数据库中没有足够证据,应拒答或提示“需人工复核”。二.输出格式必须严格遵循以下模板:结论:用简明语言说明是否允许、应如何做或风险提示。适用条件:说明该条款适用于哪些场景、角色、实验类型或危险级别。办理步骤:列出条款规定的具体操作或执行流程。引用清单:列出引用的条款编号、文件名、发布日期(示例:〔高等学校实验室安全规范·第2章第3条·2023〕)。风险与边界:说明版本差异、地区适配性或需人工核实的部分。免责声明:本回答基于公开安全规范整理,若用于正式审查或事故处理,请以最新官方文件为准。三.回答时遵循以下原则:优先引用匹配度最高的条款(Top-3)。通过关键词+向量混合检索选择相关条文。对不同版本条款并列展示并提示人工判断。若置信度低或信息不足,应追问或拒答(例如:“请提供化学品名称或实验类型”)。所有回答必须附带条款来源,不得虚构或省略。四.不允许的行为:不得编造不存在的法规或虚假条号。不得给出没有依据的操作建议。不得隐瞒来源或删除引用信息。
    • 明确学习助手的角色和技能

      使用阿里云百炼提供的prompt自动优化功能来优化prompt。

      image

      优化完成后,可点击【立即使用】

      image

      该部分可参考的优化后的prompt:

      # 角色
      你是一位专业的实验室安全合规指导专家,专注于为科研单位、实验教学中心和实验人员提供“有据可依、可追溯、可复核”的安全管理与执行指导。你的身份是一名“实验室安全法规与操作规范顾问”。
      
      ## 技能
      ### 技能 1: 定位适用条款
      - **任务**:根据用户提供的具体问题或场景,快速定位适用的实验室安全规范、管理办法和操作标准。
        - 通过关键词+向量混合检索选择相关条文。
        - 优先引用匹配度最高的条款(Top-3)。
      
      ### 技能 2: 判断适用性与版本有效性
      - **任务**:判断所引用条款的适用性和版本有效性。
        - 对不同版本条款并列展示,并提示人工判断。
        - 若置信度低或信息不足,应追问或拒答(例如:“请提供化学品名称或实验类型”)。
      
      ### 技能 3: 提供可执行的办理步骤
      - **任务**:给出具体的办理步骤和参考条款,帮助用户理解和执行。
        - 列出条款规定的具体操作或执行流程。
        - 提供详细的办理步骤,确保用户能够按照规范进行操作。
      
      ### 技能 4: 风险提示与边界说明
      - **任务**:对版本差异、地区适配性或需人工核实的部分进行风险提示和边界说明。
        - 说明版本差异、地区适配性或需人工核实的部分。
        - 提示用户在正式审查或事故处理时,以最新官方文件为准。
      
      ## 输出格式
      所有回答必须严格遵循以下模板:
      
      - **结论**:用简明语言说明是否允许、应如何做或风险提示。
      - **适用条件**:说明该条款适用于哪些场景、角色、实验类型或危险级别。
      - **办理步骤**:列出条款规定的具体操作或执行流程。
      - **引用清单**:列出引用的条款编号、文件名、发布日期(示例:〔高等学校实验室安全规范·第2章第3条·2023〕)。
      - **风险与边界**:说明版本差异、地区适配性或需人工核实的部分。
      - **免责声明**:本回答基于公开安全规范整理,若用于正式审查或事故处理,请以最新官方文件为准。
      
      ## 限制
      - 回答必须引用数据库中条款级证据(章/节/条号),并保持语义一致,不可编造条文。
      - 若数据库中没有足够证据,应拒答或提示“需人工复核”。
      - 所有回答必须附带条款来源,不得虚构或省略。
      - 不得编造不存在的法规或虚假条号。
      - 不得给出没有依据的操作建议。
      - 不得隐瞒来源或删除引用信息。
      
  9. 拓展智能体能力

    阿里云百炼智能体应用有一些拓展智能体能力的方法,可选择性开启

    • 此处可以开启增强生成功能

      image

    • 说明

      常用能力介绍

      视觉:允许用户上传图片,使用模型的视觉能力(此处需要前面选择视觉模型才可以使用该效果);

      知识库:提升私域知识问答能力;

      动态文件解析:允许用户上传文件,使用预置算法解析文件,支持用户对文件内容进行问答;

      联网搜索:依据场景触发联网搜索;

      MCP服务:模型通过标准化协议(MCP)连接企业内部服务API并发起调用;

      插件:调用外部 API,扩展智能体的能力和使用场景。

  10. 结果测试

    • 测试一:

      输入问题“实验室废弃物如何处理”:

      image

      image

    • 测试二:

      输入问题“危险化学物品该如何管理”:

      image

      image

      image

    • 测试三:

      输入“使用硫酸时我该注意什么”:

      image

      模型出现错误引用

    • 在模型自动优化的prompt基础上,根据测试结果,可以再对prompt进行调优。

      增加限制条件,多次向模型强调不可以引用知识库以外的文件,知识库种没有的信息需要拒答或者人工复核

      修改后的prompt—限制:

      ## 限制
      - 回答必须引用知识库中条款级证据(章/节/条号),并保持语义一致,不可编造条文。
      - 回答必须依据知识库的内容,若知识库种没有这方面的信息,应拒答或提示“需人工复核”。
      - 不可以引用知识库以外的文件
      - 引用的知识库的条文必须准确。
      - 若知识库中没有足够的信息时,应拒答或提示“需人工复核”。
      - 所有回答必须附带条款来源,不得虚构或省略。
      - 不得编造不存在的法规或虚假条号。
      - 不得给出没有依据的操作建议。
      - 不得隐瞒来源或删除引用信息。
      - 当知识库不同文档的相关信息冲突时,不要乱说,提示“需要人工复核”或者需要询问更多细节
      

      image

      修改后的测试结果不再出现随意引用的情况。

  11. 智能体发布

    • 在测试结束之后,可以点击右上角发布按钮,将应用发布。点击右上角【发布】

      image

      说明

      需注意体验窗为测试草稿版本,如未发布,可在草稿版中进行测试。如已发布需测试发布版本,需要切换到发布版。

    • 可对该智能体进行版本描述,确认无误后点击【确认发布】

      image

    • 发布后可查看发布渠道。

      image

    • 发布后,可以在发布渠道中查看智能体不同的发布渠道,目前支持API调用,在钉钉机器人、微信公众号等渠道。现在就可以在这些渠道中将这个写好的应用配置上去,分享给他人使用啦。

      image

  12. 实验资源释放

    重要

    注意:

    1. 实验结束后,阿里云百炼账号无需注销

    2. 但如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

    3. 在阿里云百炼,模型训练部署等需要付费,请谨慎操作。模型体验、构建应用等需要消耗Token,在测试前请先确认是否有免费额度或云工开物券还有余额。

六、结果与验证

实验的预期输出包括:

  • 模型能够在用户提问后返回条款级引用、适用性判断和办理步骤的规范化答案。

  • 输出结果应严格遵循“结论—适用条件—办理步骤—引用清单—风险与边界”模板。

  • 对存在版本差异或冲突条款的情况,能够并列展示条款并提示“需人工复核”。

  • 对信息不足或低置信度问题能够触发追问或拒答机制。

  • 支持跨文档证据聚合、版本与地域适配。

验证模型输出的方法包括:

  1. 条款引用准确性:

    • 检查输出是否包含正确的条款编号、章/节信息以及文档来源。

    • 抽检条款内容与原文数据库是否一致,无夸大或遗漏。

  2. 适用性判断与办理步骤合理性:

    • 核对操作流程是否与条款要求匹配

    • 确认适用条件与实际实验场景一致。

  3. 低置信度与冲突处理:

    • 验证模型是否在证据不足或条款冲突时提示“需人工复核”。

    • 检查冲突条款是否并列展示,并附带版本/地域信息。

  4. 整体可复用性与模板遵循度:

    • 验证答案是否完整遵循模板结构。

    • 检查不同用户问题下输出的一致性与规范性。

提示词对话结果的验证指标与评分参考表:

指标

评分(1-5)

说明

条款引用与来源准确性

检查引用的条款是否存在于数据库,文档名称与条号是否匹配

办理步骤完整性

流程是否详细、可操作,步骤顺序是否合理

适用性判断准确性

条款适用条件是否与场景一致,是否考虑版本和地域差异

冲突与低置信度处理

冲突条款是否并列显示,低置信度问题是否提示人工复核

模板遵循度与结构清晰度

是否严格按“结论—适用条件—办理步骤—引用清单—风险与边界”输出

七、拓展与思考

  • 不同角色设定和输出结构约束对模型输出质量的影响

  • 探讨将本实验模板迁移到其他合规领域或场景,如人事报销、信息安全、教学考核管理。

  • 研究可行方案,包括低置信度拒答、条款级证据追溯、跨文档交叉验证、多版本冲突提示,确保模型输出可靠、可追溯且安全。

八、常见问题

大模型部署与提示词交互实验的常见问题与解决方案表:

常见问题

解决方案

PAI-EAS部署失败

检查region是否支持LLM部署或切换区域

引用条文错误

修改prompt,增加限制条件

编造不存在的内容

增强约束条件并结合RAG校验

九、实验报告要求

基于实验学生应提交完整的实验报告,要求包含以下内容:实验目的与任务描述;实验环境配置截图;

  • 实验目的与任务描述;

  • 实验环境配置截图;

  • 三版以上Prompt与生成摘要对比结果;

  • 量化评估表与分析说明;

  • 对“七、拓展与思考”问题的回答;

  • 实验总结与个人反思。

十、关闭实验

  • 完成实验后,点击 结束实操

    image

  • 点击 取消 回到实验页面,点击 确定 退出实验界面,关闭页面结束实验

    image

    说明

    阿里云百炼账号无需注销,如后续不再使用阿里云百炼知识库,请确认是否有在实验结束后删除知识库,以避免不必要的扣费