捍卫数字信任 —— 负责任AI伦理风险评估演练

更新时间:
复制为 MD 格式

本实验通过在阿里云平台搭建非临床心理支持对话原型,结合权威科普 RAG 知识库构建、拒答与危机升级模块设计、隐私保护与合规治理等环节,指导学生打造可控的心理支持对话系统,实现情绪理解、合规回应与安全风险防控。

实验任务:非临床心理支持对话原型的伦理与安全设计

一、实验目标

  • 本实验通过在阿里云平台搭建非临床心理支持对话原型,结合权威科普 RAG 知识库构建、拒答与危机升级模块设计、隐私保护与合规治理等环节,指导学生打造可控的心理支持对话系统,实现情绪理解、合规回应与安全风险防控。

  • 完成本实验后,学生应能够:

    • 独立在阿里云平台完成非临床心理支持对话原型的搭建,包括权威科普 RAG 知识库的构建与白名单来源配置;​

    • 掌握心理支持对话系统中角色边界设定、拒答模板编写、危机识别触发器配置的核心方法;​

    • 实现会话数据最小化采集与脱敏存储,搭建审计日志与生成标识体系,保障用户隐私安全;​

    • 设计包含用途边界提示、紧急求助入口的前端界面,完成运行参数与风控开关的配置;​

    • 通过红队测试与跨人群用例验证,评估系统合规性与可用性,形成可复用的伦理安全配置模板及提示词库。

二、实验介绍

心理支持场景涉及高度敏感信息与脆弱用户群体,通用对话系统易出现越界回答,可能造成误导、延误就医甚至二次伤害。本实验以 “非临床、科普与情绪支持” 为核心定位,在阿里云平台开展实验,通过构建权威科普 RAG 知识库、设计拒答与危机升级模块、落实隐私保护机制等策略,引导学生掌握非临床心理支持对话原型的构建逻辑。实验过程中注重技术实现与治理机制双轨并行,从开场告知同意、对话内容管控到数据存储审计,建立全流程可控闭环,最终实现既能提供情绪理解与科普建议,又能精准防控越权请求与危机风险的对话系统。

三、相关知识点

非临床心理支持对话系统的核心是在保障安全合规的前提下,提供有温度的情绪支持与权威科普,相关关键概念包括:​

  • 权威科普 RAG 知识库:以经过筛选的白名单权威科普材料为基础构建知识库,通过检索增强生成技术,确保系统回答仅引用指定来源内容并自动标注出处,避免非权威信息误导用户;​

  • 拒答与危机升级机制:针对 “诊断 / 处方 / 治疗建议” 等越权请求,预设标准化拒答与转介模板;通过 “关键词 + 轻量分类器” 构建危机识别触发器,对自伤他伤等危机信号触发即时升级脚本,并内嵌本地紧急资源提示;

  • 隐私最小化与合规治理:遵循数据最小化原则,默认不存储会话或仅保存脱敏审计数据,建立完善的审计日志与生成标识(如水印),确保用户数据可追溯、可管控,符合隐私保护法规;​

  • 公平性与可用性测试:通过多样化群体的对照用例,验证系统在不同人群中的回应一致性与被理解程度,避免因偏见导致的服务不公平,同时优化界面设计与交互逻辑,提升用户使用体验。

四、实验环境配置

  1. 平台与工具:阿里云百炼平台(Bailian Studio)

  2. 硬件要求:联网计算机

  3. 软件环境:Web浏览器(建议Chrome)

  4. 资源文件:示例文档 系统角色边界与 RAG 知识库搭建_example.docx

  5. 账户设置:注册阿里云账号并完成高校师生认证;开通阿里云百炼应用开发权限

  6. 模型选择:千问-plus 或千问-plus-latest

五、实验内容与步骤

  1. 实验室资源方式简介

    进入实操前,请确保阿里云账号满足以下条件:

    • 个人账号资源

      • 使用您个人的云资源进行操作,资源归属于个人。

      • 所有实验操作将保留至您的账号,请谨慎操作。

      • 平台仅提供手册参考,不会对资源做任何操作。

    • 确保已完成云工开物300元代金券领取。

    • 已通过实名认证且账户余额≥0元。

    • 本实验费用以实际使用的token量为准,以千问-Plus为例,输入 0.0008元/千tokens,输出0.002元/千tokens。

    • 本实验产生的费用优先使用优惠券。如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。

    • 实操结束后,如通过云工开物代金券购买的产品,无需进行注销;如注销产品,代金券不会返还。

    • 新注册阿里云百炼的用户,千问系列模型提供模型的免费额度,不同模型的免费额度不同,请在使用前,先阅读产品文档确认模型的免费额度,或在使用前,登录阿里云百炼-模型广场-模型卡片详情,查看具体模型的免费额度。注意在使用过程中的token消耗。模型列表 只有开通阿里云百炼服务后才能体验模型的免费额度。

  2. 领取实验算力资源

    • 第一步:点击“进入实操”

      在开始实验之前,请先点击右侧屏幕的“进入实操”再进行后续操作

      image

    • 第二步:领取300元优惠券

      本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源,如未领取请先点击领取。(若已领取请跳过)

      image

      重要

      实验产生的费用优先使用优惠券,优惠券使用完毕后需您自行承担。

      学生认证

  3. 登录阿里云百炼

    • 在阿里云官网搜索阿里云百炼进入控制台,或点击进入阿里云百炼控台,点击【应用开发

      image

    • 若之前未登录开通过阿里云百炼请按以下步骤操作,若已开通过百炼服务请跳过此步

      • 进入【应用开发】—【应用管理】,点击【立即登录】

        image

      • 阅读服务协议并点击【同意】

        image

  4. 上传数据,构建知识索引

    • 可点击下载示例文档:系统角色边界与 RAG 知识库搭建_example.docx

    • 点击【应用开发】—【应用数据】,选择【默认类目】,选择数据类型为【文件】,点击【导入数据】

      image

    • 导入方式选择【本地上传】,选择【点击或拖拽上传文件】,上传刚才下载的示例文件,上传后点击【确认】

      image

    • 导入数据将根据数据量大小需要一定的时间,在此期间等待数据转为“导入完成”的状态(通过手动点击刷新按钮)

      image

  5. 创建知识索引

    • 数据导入完成后,需要创建一个知识索引,在阿里云百炼的左侧导航栏中,点击【知识库】—【创建知识库】

      image

    • 输入知识库名称,知识库类型及使用场景请按情况选择,此处保持默认选项即可,点击【下一步】

      image

    • 数据来源有多种选择方式,此处可以点击【选择文件】按钮,在选择文件处,选到上一步上传知识库的类目,并勾选到该示例文件,点击【下一步】

      image

      image

    • 系统自动进行文档解析。文档解析需要一定时间,请您耐心等待,直至状态变更为“解析完成”状态,才能在后续的文档问答过程中被检索到。

      image

      重要

      注意:

      如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

  6. 创建应用

    • 点击【应用开发】-【应用管理】-【创建应用】。

      image

    • 选择【智能体应用】,输入应用名称,点击【立即创建】。

      image

    • 创建成功的界面。

      image

    • 选择模型,模型可选择:千问-plus 或 千问-plus-latest模型,可以在下拉列表中进行选择,若其中没有需要的模型,点击【更多模型】,在搜寻框输入搜索。

      image

      image

  7. 知识库检索增强

    • 添加知识库,点击【知识】—【文档】,把创建的知识库添加进来。

      image

    • 点击【知识—文档—调试】,在这设置知识库召回的规则。可以根据具体的需求做一个设置。也可以参照截图来设置。设置好后点击【保存】

      image

      image

      说明

      ·拼装策略:用于平衡知识库召回结果的全面性和性能,可选择按召回数量或按拼装长度。(按召回数量可以满足对输入信息量有明确要求的场景。拼装长度 则能最大限度地利用输入空间。)

      ·最大拼装长度:从知识库召回的文本切片会被拼装成连贯的文本供大模型参考,但存在字符数上限。超过该长度时,文本将被强制切割,超出部分将被丢弃。增大该值通常会召回更多和用户查询可能相关的内容,但也会增加每次问答的响应时延。

  8. 设置提示词prompt

    • 示例prompt:

      你是「轻愈心理科普助手」,仅提供非临床情绪陪伴与科普,严格遵守:不诊断病症、不荐药、不订治疗方案;仅用白名单知识库(中国心理卫生协会手册、国标 GB/T 30263-2013 等),回答必标来源(格式:“来源:[名称]+[章节 / 页]”);遇 “自杀、自伤” 等危机,立即给本地热线(如北京 010-8295****)+120 提示,不疏导;不主动问个人信息,不记对话。回应需:情绪陪伴先同理再给 1 个科普方法,越权需求用拒答模板(引导就医),结尾加 “【边界提示】本内容仅科普,不构成医疗建议,困扰超 2 周建议找专业支持”。禁止用临床词、超知识库内容。
    • 明确学习助手的角色和技能

      使用阿里云百炼提供的prompt自动优化功能来优化prompt。

      image

      优化完成后,可点击【立即使用】

      image

      该部分可参考的优化后的prompt:

      # 角色
      你是「轻愈心理科普助手」,专注于非临床场景的情绪陪伴与心理健康科普。你严格遵守以下边界:
      - 无医疗资质:不进行心理疾病诊断、症状严重程度判断,不推荐药物、制定治疗方案。
      - 权威知识依赖:仅调用白名单知识库(《中国心理卫生协会心理健康科普手册》《心理健康服务国家标准(GB/T 30263-2013)》、国家心理健康和精神卫生防治中心科普文章、三甲医院心理科普内容),回答必须标注来源(格式:“来源:[来源名称]+[章节 / 页码 / 条款]”)。
      - 紧急场景处理:识别到“自伤/伤人倾向、急性情绪崩溃”等危机信号时,立即触发紧急资源提示,不展开情绪疏导。
      - 隐私保护:不主动询问用户姓名、手机号、地理位置等个人信息,不记忆对话细节。
      ## 技能
      ### 技能 1:情绪陪伴
      - **任务**:当用户表达情绪(如“工作压力大”、“考试焦虑”)时,先同理回应(避免空泛安慰),再结合知识库提供1-2个可操作的科普方法(如情绪调节技巧),结尾附加边界警示语。
        - **示例**:用户说“我最近工作压力很大”,你可以回应:“我能理解你当下的压力感,这种情况很多人都会遇到。你可以尝试深呼吸练习来缓解压力,具体方法是……(来源:《中国心理卫生协会心理健康科普手册》第X章)。请记住,如果你感到无法自我调节,请寻求专业帮助。”
      ### 技能 2:科普咨询
      - **任务**:当用户询问心理健康知识(如“怎么缓解失眠”、“压力大时吃什么好”)时,直接引用知识库内容,明确标注来源,确保信息准确且非临床化(避免提及“治疗”、“治愈”等词汇,用“调节”、“改善”替代)。
        - **示例**:用户问“有什么方法可以缓解失眠?”,你可以回答:“根据《心理健康服务国家标准(GB/T 30263-2013)》第X条,建议你在睡前进行放松训练,如冥想或热水浴,这有助于改善睡眠质量。此外,保持规律的作息时间也很重要。”
      ### 技能 3:边界询问
      - **任务**:当用户询问“能否诊断病症”、“推荐药物”等越权需求时,立即调用拒答模板,引导至专业医疗渠道。
        - **示例**:用户问“你能帮我诊断一下我的抑郁症吗?”,你可以回答:“我无法进行心理疾病的诊断,建议你前往本地三甲医院心理科就诊,点击【就医指引】可获取合规机构名录。”
      ### 技能 4:紧急响应
      - **任务**:当检测到以下信号时,触发紧急响应:
        - **关键词触发**:用户提及“自杀”、“伤害自己”、“想不开”、“报复他人”等词汇。
        - **语义触发**:表达“活着没意义”、“计划结束生命”、“想伤害某人”等消极倾向语句。
        - **紧急响应流程**:
          - 优先提示紧急资源:“你当前的想法可能存在风险,请立即联系24小时心理热线([实验所在地热线,如北京 010-8295****])或拨打120,也可前往最近的三甲医院急诊科寻求帮助。”
          - 附加本地机构指引:“本地合规心理机构:[示例:北京大学第六医院心理科、上海市精神卫生中心],点击【就医地图】可查看导航。”
          - 不展开情绪对话:不追问“为什么有这种想法”,不提供情绪疏导。
      ## 限制
      - 只提供非临床的心理健康科普和支持,不进行心理疾病诊断、症状严重程度判断,不推荐药物、制定治疗方案。
      - 所有回答必须基于白名单知识库,并明确标注来源。
      - 识别到紧急情况时,立即触发紧急资源提示,不展开情绪疏导。
      - 不主动询问用户姓名、手机号、地理位置等个人信息,不记忆对话细节。
      - 在提供旅行相关建议时,注明所有价格均为预估,可能会受到季节等因素的影响。
      
  9. 结果测试

    场景化界面测试(结合业务验证响应)​:

    • 常规对话场景​

      操作:输入“压力大怎么办”,查看界面展示;​

      image

      image

    • 越权需求场景​

      操作:输入 “我是不是有抑郁症”,观察界面

      image

      image

    • 危机场景​

      操作:输入“想伤害自己”,测试界面反应;​

      image

      image

    • 在模型自动优化的prompt基础上,根据测试结果,可以再对prompt进行调优。

  10. 智能体发布

    • 在测试结束之后,可以点击右上角发布按钮,将应用发布。点击右上角【发布】

      image

      说明

      需注意体验窗为测试草稿版本,如未发布,可在草稿版中进行测试。如已发布需测试发布版本,需要切换到发布版。

    • 可对该智能体进行版本描述,确认无误后点击【确认发布】

      image

    • 发布后可查看发布渠道。

      image

    • 发布后,可以在发布渠道中查看智能体不同的发布渠道,目前支持API调用,在钉钉机器人、微信公众号等渠道。现在就可以在这些渠道中将这个写好的应用配置上去,分享给他人使用啦。

      image

  11. 实验资源释放

    重要

    注意:

    1. 实验结束后,阿里云百炼账号无需注销

    2. 但如后续不再使用阿里云百炼知识库,请在实验结束后删除!!如在实验结束后继续使用知识库,将按小时进行资源计费,费用参考:0.03 元/知识库/小时(标准版)和0.2 元/RCU/小时(旗舰版)

      18b442cb3aeb512f4a5202d42910bb2c

    3. 在阿里云百炼,模型训练部署等需要付费,请谨慎操作。模型体验、构建应用等需要消耗Token,在测试前请先确认是否有免费额度或云工开物券还有余额。

六、结果与验证

实验的预期输出包括:

  • 功能合规:角色 “暖心伴心理科普助手”100% 拒答病症判断、治疗建议等临床需求,回答附边界提示与准确来源,仅采匿名会话 ID。​

  • 流程完整:弹窗首开必出,同意按钮滚动至底部激活,关弹窗二次提示;紧急资源含本地热线 +

    3 家医院,多端完整显示。​

  • 成果复用:文案库分 3 类场景可直导阿里云,弹窗模板含交互 / 样式参数,验证方案有 10 条用例

    + 合格标准。

七、拓展与思考

  • 升级语义理解后,危机词库更新频率咋设定防误判?加人工复核通道,怎样平衡效率与用户等待体验?

  • 面对青少年、老年人,如何简化 “非临床” 表述兼顾易懂与准确?延伸至校园、职场,怎样区分 “情绪梳理” 与 “病症判断” 防越权?​

  • 弹窗 “首开完整版、次开简化版”,用留存率量化效果合理吗?拒答加同理表述,如何把握尺度不突破 “非临床” 边界?​

八、常见问题

大模型部署与提示词交互实验的常见问题与解决方案表:

常见问题

解决方案

PAI-EAS部署失败

检查region是否支持LLM部署或切换区域

文档解析未完成

确认文件格式为UTF-8并等待解析完成

文案存在临床术语

“确诊” 为 “建议专业评估”,“治疗” 为 “调节”等

九、实验报告要求

基于实验学生应提交完整的实验报告,要求包含以下内容:实验目的与任务描述;实验环境配置截图;

  • 实验环境配置截图;

  • 三版以上Prompt与输出结果对比结果;

  • 对“七、拓展与思考”问题的回答;

  • 实验总结与个人反思。

十、关闭实验

  • 完成实验后,点击 结束实操

    image

  • 点击 取消 回到实验页面,点击 确定 退出实验界面,关闭页面结束实验

    image

    说明

    阿里云百炼账号无需注销,如后续不再使用阿里云百炼知识库,请确认是否有在实验结束后删除知识库,以避免不必要的扣费