通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果评测,从用户提出问题开始,到RAG系统召回内容,再到LLM生成回答的整个流程进行综合评测。
前提条件
开通AI搜索开放平台服务,详情请参见开通服务。
注意事项
效果评测按实际评测时产生的计算资源消耗计费,详情请参见计费方式和计费项。
操作步骤
-
登录AI搜索开放平台控制台。
-
选择上海地域,切换到AI搜索开放平台,切换到目标空间。
说明-
目前仅支持在上海、德国(法兰克福)地域开通AI搜索开放平台功能。
-
支持杭州、深圳、北京、张家口、青岛地域的用户,通过VPC地址跨地域调用AI搜索开放平台的服务。
-
空间用于隔离和管理数据,首次开通AI搜索开放平台服务后,系统自动创建一个Default空间,支持创建空间。
-
-
在左侧导航栏选择效果评测,选择创建评测任务。
-
在创建评测任务页面,输入任务名称,参照提供的样例数据格式上传评测数据集。
重要-
一个测评数据集中,最大有效数据为200条,超出后系统提示报错。
-
严格按照样例模板上传测评数据集,参考答案为可选项,同一个数据集中不支持部分问题无参考答案。

测评模板以及关键测评指标说明:
参数
说明
question
您的问题
standard_answer
参考答案,该参数值可为空,对测评报告返回的评测指标有影响。
-
有参考答案,评测指标如下:
-
无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。
-
检索准确率(context_precision):参考答案与检索到的文档之间的准确性。准确取值为1,不准确取值为0。
-
检索召回率(context_recall):检索到的文档与参考答案之间的完整度,召回完整取值为1,召回不完整取值为0。
-
满意度(satisfaction):模型生成的答案与参考答案之间对比:
-
模型生成的答案无幻觉且准确、完整,满意度为1。
-
模型生成的答案无幻觉,但信息不准确或有遗漏时,满意度为0.5。
-
模型生成的答案存在幻觉问题时,满意度为0。
-
-
综合评分(comprehensive_score):无幻觉率、检索准确率、检索召回率、满意度的综合评分。
-
-
无参考答案,评测指标如下:
-
检索相关性(context_relevance):问题与检索到的文档的相关性,相关为1,不相关为0。
-
可信度(credibility):问题与模型生成答案的可信度。
-
模型生成的答案无幻觉,且根据相关的检索结果生成答案(若未检索到相关结果,答案为无法回答)时,可信度为1。
-
模型生成的答案无幻觉,但根据不相关的检索结果生成答案,或有相关的检索结果时答案为无法回答,可信度为0.5。
-
模型生成的答案有幻觉时,可信度为0。
-
-
无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。
-
综合评分(comprehensive_score):检索相关性、无幻觉率、可信度的综合评分。
-
recall_docs
检索到的文档
model_answer
模型生成的答案
-
-
完成上述参数配置后单击确定创建评测任务。
测评任务状态:
-
评测中、评测失败:支持删除评测任务。
-
评测成功:可下载评测报告Excel,包括2个部分:
-
sheet1-评测任务:测评任务总体情况,根据所有测评成功的问题计算均值指标。
sheet2-任务详情:针对每个问题的测评详情数据。

-
-