通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果测评-智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果评测，从用户提出问题开始，到RAG系统召回内容，再到LLM生成回答的整个流程进行综合评测。

前提条件

开通AI搜索开放平台服务，详情请参见开通服务。

注意事项

效果评测按实际评测时产生的计算资源消耗计费，详情请参见计费方式和计费项。

操作步骤

登录AI搜索开放平台控制台。
选择上海地域，切换到AI搜索开放平台，切换到目标空间。
说明
- 目前仅支持在上海、德国（法兰克福）地域开通AI搜索开放平台功能。
- 支持杭州、深圳、北京、张家口、青岛地域的用户，通过VPC地址跨地域调用AI搜索开放平台的服务。
- 空间用于隔离和管理数据，首次开通AI搜索开放平台服务后，系统自动创建一个Default空间，支持创建空间。
在左侧导航栏选择效果评测，选择创建评测任务。

在创建评测任务页面，输入任务名称，参照提供的样例数据格式上传评测数据集。

重要

一个测评数据集中，最大有效数据为200条，超出后系统提示报错。
严格按照样例模板上传测评数据集，参考答案为可选项，同一个数据集中不支持部分问题无参考答案。

评测任务名称需以字母开头，可包含大小写字母、数字和下划线，长度为1-30个字符。评测数据集支持Excel文件格式。任务计费按实际评测时产生的计算资源消耗计费。

测评模板以及关键测评指标说明：

参数	说明
question	您的问题
standard_answer	参考答案，该参数值可为空，对测评报告返回的评测指标有影响。有参考答案，评测指标如下：无幻觉率（faithfulness）：检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0；无幻觉取值为1。检索准确率（context_precision）：参考答案与检索到的文档之间的准确性。准确取值为1，不准确取值为0。检索召回率（context_recall）：检索到的文档与参考答案之间的完整度，召回完整取值为1，召回不完整取值为0。满意度（satisfaction）：模型生成的答案与参考答案之间对比：模型生成的答案无幻觉且准确、完整，满意度为1。模型生成的答案无幻觉，但信息不准确或有遗漏时，满意度为0.5。模型生成的答案存在幻觉问题时，满意度为0。综合评分（comprehensive_score）：无幻觉率、检索准确率、检索召回率、满意度的综合评分。无参考答案，评测指标如下：检索相关性（context_relevance）：问题与检索到的文档的相关性，相关为1，不相关为0。可信度（credibility）：问题与模型生成答案的可信度。模型生成的答案无幻觉，且根据相关的检索结果生成答案（若未检索到相关结果，答案为无法回答）时，可信度为1。模型生成的答案无幻觉，但根据不相关的检索结果生成答案，或有相关的检索结果时答案为无法回答，可信度为0.5。模型生成的答案有幻觉时，可信度为0。无幻觉率（faithfulness）：检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0；无幻觉取值为1。综合评分（comprehensive_score）：检索相关性、无幻觉率、可信度的综合评分。
recall_docs	检索到的文档
model_answer	模型生成的答案

完成上述参数配置后单击确定创建评测任务。

测评任务状态：
- 评测中、评测失败：支持删除评测任务。
- 评测成功：可下载评测报告Excel，包括2个部分：
  - sheet1-评测任务：测评任务总体情况，根据所有测评成功的问题计算均值指标。
    
    sheet2-任务详情：针对每个问题的测评详情数据。
    
    评测任务列表以表格形式展示所有任务信息，包含任务名称、任务状态（评测中、评测成功等）、创建时间、完成时间、评测数据（上传的数据文件名）和操作列。任务评测完成后，状态变为评测成功，可在操作列单击下载报告获取评测结果文件。