通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果测评,从用户提出问题开始,到RAG系统召回内容,再到LLM生成回答的整个流程进行综合评测。
前提条件
开通AI搜索开放平台服务,详情请参见开通服务。
注意事项
效果评测按实际评测时产生的计算资源消耗计费,详情请参见计费方式和计费项。
操作步骤
登录AI搜索开放平台控制台。
选择上海地域,切换到AI搜索开放平台,切换到目标空间。
说明目前仅支持在上海地域开通AI搜索开放平台功能。
支持杭州、深圳、北京、张家口、青岛地域的用户,通过VPC地址跨地域调用AI搜索开放平台的服务。
空间用于隔离和管理数据,首次开通AI搜索开放平台服务后,系统自动创建一个Default空间,支持创建空间。
在左侧导航栏选择效果测评,选择创建评测任务。
在创建评测任务页面,输入任务名称,参照提供的样例数据格式上传评测数据集。
重要一个测评数据集中,最大有效数据为200条,超出后系统提示报错。
严格按照样例模板上传测评数据集,参考答案为可选项,同一个数据集中不支持部分问题无参考答案。
测评模板以及关键测评指标说明:
参数
说明
question
您的问题
standard_answer
参考答案,该参数值可为空,对测评报告返回的评测指标有影响。
有参考答案,评测指标如下:
无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。
检索准确率(context_precision):参考答案与检索到的文档之间的准确性。准确取值为1,不准确取值为0。
检索召回率(context_recall):检索到的文档与参考答案之间的完整度,召回完整取值为1,召回不完整取值为0。
满意度(satisfaction):模型生成的答案与参考答案之间对比:
模型生成的答案无幻觉且准确、完整,满意度为1。
模型生成的答案无幻觉,但信息不准确或有遗漏时,满意度为0.5。
模型生成的答案存在幻觉问题时,满意度为0。
综合评分(comprehensive_score):无幻觉率、检索准确率、检索召回率、满意度的综合评分。
无参考答案,评测指标如下:
检索相关性(context_relevance):问题与检索到的文档的相关性,相关为1,不相关为0。
可信度(credibility):问题与模型生成答案的可信度。
模型生成的答案无幻觉,且根据相关的检索结果生成答案(若未检索到相关结果,答案为无法回答)时,可信度为1。
模型生成的答案无幻觉,但根据不相关的检索结果生成答案,或有相关的检索结果时答案为无法回答,可信度为0.5。
模型生成的答案有幻觉时,可信度为0。
无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。
综合评分(comprehensive_score):检索相关性、无幻觉率、可信度的综合评分。
recall_docs
检索到的文档
model_answer
模型生成的答案
完成上述参数配置后单击确定创建评测任务。
测评任务状态:
评测中、评测失败:支持删除评测任务。
评测成功:可下载评测报告Excel,包括2个部分:
sheet1-评测任务:测评任务总体情况,根据所有测评成功的问题计算均值指标。
sheet2-任务详情:针对每个问题的测评详情数据。