评测任务管理

通过效果评测模块对AI搜索开放平台提供的RAG开发链路进行效果测评,从用户提出问题开始,到RAG系统召回内容,再到LLM生成回答的整个流程进行综合评测。

前提条件

开通AI搜索开放平台服务,详情请参见开通服务

注意事项

效果评测按实际评测时产生的计算资源消耗计费,详情请参见计费方式和计费项

操作步骤

  1. 登录AI搜索开放平台控制台

  2. 选择上海地域,切换到AI搜索开放平台,切换到目标空间。

    说明
    • 目前仅支持在上海地域开通AI搜索开放平台功能。

    • 支持杭州、深圳、北京、张家口、青岛地域的用户,通过VPC地址跨地域调用AI搜索开放平台的服务。

    • 空间用于隔离和管理数据,首次开通AI搜索开放平台服务后,系统自动创建一个Default空间,支持创建空间

  3. 在左侧导航栏选择效果测评,选择创建评测任务。

  4. 在创建评测任务页面,输入任务名称,参照提供的样例数据格式上传评测数据集。

    重要
    • 一个测评数据集中,最大有效数据为200条,超出后系统提示报错。

    • 严格按照样例模板上传测评数据集,参考答案为可选项,同一个数据集中不支持部分问题无参考答案。

    image

    测评模板以及关键测评指标说明:

    参数

    说明

    question

    您的问题

    standard_answer

    参考答案,该参数值可为空,对测评报告返回的评测指标有影响。

    • 有参考答案,评测指标如下:

      • 无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。

      • 检索准确率(context_precision):参考答案与检索到的文档之间的准确性。准确取值为1,不准确取值为0。

      • 检索召回率(context_recall):检索到的文档与参考答案之间的完整度,召回完整取值为1,召回不完整取值为0。

      • 满意度(satisfaction):模型生成的答案与参考答案之间对比:

        • 模型生成的答案无幻觉且准确、完整,满意度为1。

        • 模型生成的答案无幻觉,但信息不准确或有遗漏时,满意度为0.5。

        • 模型生成的答案存在幻觉问题时,满意度为0。

      • 综合评分(comprehensive_score):无幻觉率、检索准确率、检索召回率、满意度的综合评分。

    • 无参考答案,评测指标如下:

      • 检索相关性(context_relevance):问题与检索到的文档的相关性,相关为1,不相关为0。

      • 可信度(credibility):问题与模型生成答案的可信度。

        • 模型生成的答案无幻觉,且根据相关的检索结果生成答案(若未检索到相关结果,答案为无法回答)时,可信度为1。

        • 模型生成的答案无幻觉,但根据不相关的检索结果生成答案,或有相关的检索结果时答案为无法回答,可信度为0.5。

        • 模型生成的答案有幻觉时,可信度为0。

      • 无幻觉率(faithfulness):检索到的文档与模型生成答案之间的幻觉率。有幻觉取值为0;无幻觉取值为1。

      • 综合评分(comprehensive_score):检索相关性、无幻觉率、可信度的综合评分。

    recall_docs

    检索到的文档

    model_answer

    模型生成的答案

  5. 完成上述参数配置后单击确定创建评测任务。

    测评任务状态:

    • 评测中、评测失败:支持删除评测任务。

    • 评测成功:可下载评测报告Excel,包括2个部分:

      • sheet1-评测任务:测评任务总体情况,根据所有测评成功的问题计算均值指标。

        sheet2-任务详情:针对每个问题的测评详情数据。

        image