应用评测

更新时间:2025-04-03 07:59:25

本篇文档介绍应用评测任务创建及评测集内容。

定义

应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型,端到端评估应用效果,使用评测集完成批量评测。

评测集准备

需先下载评测集模板,按照模板内容进行补充内容。示例文档应用评测-评测集-EfmApplicationdata.xlsx

说明

Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。

Completion:Prompt对应的内容。可以是答案、一段文字描述。

SessionId:会话ID,可以自定义编写。

上传评测集

  1. 访问应用评测评测集页面,将准备好的评测集,单击新增数据集,将文件内容上传

    说明

    支持扩展名:xls、xlsx,文件最大20M,单次最多上传10个文件。

    image

    image

  2. 单击确认后,在评测集页面展示上传的内容,在操作列单击发布当前数据集image

创建评测任务

第一步:访问应用评测任务列表页面,单击创建评测任务,选择应用。

说明

应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证。

image

第二步:选择已经完成上传并发布的评测集。

image

第三步:选择评测维度,未配置的话以默认为准,评测维度详情可以查看评测维度

image

第四步:开始评测。

  • 任务名称可以自定义修改

  • 可以在此处查看评测任务的完整信息

  • 单击计算详情可查看费用预估计算详情

确认后单击开始评测

说明

预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下

评测费用=评测产生的Tokens * 模型调用单价

评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。

image

第五步:评测任务开始执行。等待时评测状态为执行中

image

第六步:评测状态为标注中时,单击标注按钮,针对应用或模型结果进行打标

image

通过对比评测集结果和应用A的结果,给出综合评价【较差、一般、较好】单击保存并下一个

image

第七步:完成全部评测集打标,单击完成评测并提交,完成应用评测。

image

查看评测结果

评测完成后,评测状态显示已完成,可以单击结果查看评测结果内容。

image

image

  • 本页导读 (1)
  • 定义
  • 评测集准备
  • 上传评测集
  • 创建评测任务
  • 查看评测结果