通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果评测,从用户提出问题开始,到RAG系统召回内容,再到LLM生成回答的整个流程进行综合评测。
前提条件
开通AI搜索开放平台服务,详情请参见开通服务。
注意事项
效果评测按实际评测时产生的计算资源消耗计费,详情请参见计费方式和计费项。
操作步骤
- 登录AI搜索开放平台控制台。 
- 选择上海地域,切换到AI搜索开放平台,切换到目标空间。 说明- 目前仅支持在上海、德国(法兰克福)地域开通AI搜索开放平台功能。 
- 支持杭州、深圳、北京、张家口、青岛地域的用户,通过VPC地址跨地域调用AI搜索开放平台的服务。 
- 空间用于隔离和管理数据,首次开通AI搜索开放平台服务后,系统自动创建一个Default空间,支持创建空间。 
 
- 在左侧导航栏选择效果评测,选择创建评测任务。 
- 在创建评测任务页面,输入任务名称,参照提供的样例数据格式上传评测数据集。 重要- 一个测评数据集中,最大有效数据为200条,超出后系统提示报错。 
- 严格按照样例模板上传测评数据集,参考答案为可选项,同一个数据集中不支持部分问题无参考答案。 
  - 测评模板以及关键测评指标说明: - 参数 - 说明 - question - 您的问题 - standard_answer - 参考答案,该参数值可为空,对测评报告返回的评测指标有影响。 - 有参考答案,评测指标如下: - 无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。 
- 检索准确率(context_precision):参考答案与检索到的文档之间的准确性。准确取值为1,不准确取值为0。 
- 检索召回率(context_recall):检索到的文档与参考答案之间的完整度,召回完整取值为1,召回不完整取值为0。 
- 满意度(satisfaction):模型生成的答案与参考答案之间对比: - 模型生成的答案无幻觉且准确、完整,满意度为1。 
- 模型生成的答案无幻觉,但信息不准确或有遗漏时,满意度为0.5。 
- 模型生成的答案存在幻觉问题时,满意度为0。 
 
- 综合评分(comprehensive_score):无幻觉率、检索准确率、检索召回率、满意度的综合评分。 
 
- 无参考答案,评测指标如下: - 检索相关性(context_relevance):问题与检索到的文档的相关性,相关为1,不相关为0。 
- 可信度(credibility):问题与模型生成答案的可信度。 - 模型生成的答案无幻觉,且根据相关的检索结果生成答案(若未检索到相关结果,答案为无法回答)时,可信度为1。 
- 模型生成的答案无幻觉,但根据不相关的检索结果生成答案,或有相关的检索结果时答案为无法回答,可信度为0.5。 
- 模型生成的答案有幻觉时,可信度为0。 
 
- 无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。 
- 综合评分(comprehensive_score):检索相关性、无幻觉率、可信度的综合评分。 
 
 - recall_docs - 检索到的文档 - model_answer - 模型生成的答案 
- 完成上述参数配置后单击确定创建评测任务。 - 测评任务状态: - 评测中、评测失败:支持删除评测任务。 
- 评测成功:可下载评测报告Excel,包括2个部分: - sheet1-评测任务:测评任务总体情况,根据所有测评成功的问题计算均值指标。 - sheet2-任务详情:针对每个问题的测评详情数据。 