文档

应用评测

更新时间:
一键部署

本篇文档介绍应用评测任务创建及评测集内容。

定义

应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型或应用的线上日志数据,端到端评估应用效果,支持使用评测集完成批量评测,或采样应用线上日志数据进行评测,可根据业务需要进行选择。

评测集准备

需先下载评测集模板,按照模板内容进行补充内容。示例文档应用评测-评测集-EfmApplicationdata.xlsx

说明

Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。

Completion:Prompt对应的内容。可以是答案、一段文字描述。

SessionId:会话ID,可以自定义编写。

image

image

上传评测集

将准备好的评测集,点击上传评测集,将文件内容上传,点击完成后,在评测集中展示上传的内容。

说明

支持扩展名:xls、xlsx,文件最大20M,单次最多上传10个文件。

image

image

image

创建评测任务

应用批量评测

第一步:点击创建评测任务,选择评测方式,选择应用批量评测。

说明

应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证。

模型日志评测:适用于上线后拉取真实用户数据验证或回测业务线上效果。

image

第二步:选择已经上传完成的评测集。也可以直接在任务中上传评测集数据。

image

第三步:选择评测维度,未配置的话以默认为准,评测维度详情可以查看维度管理

image

第四步:开始评测。 任务名称可以自定义修改。可以查看评测任务的完整信息。以及预估费用展示。确认后点击开始评测。

说明

预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下

评测费用=评测产生的Tokens * 模型调用单价

评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。

image

第五步:评测任务开始执行。等待评测状态为评测中。

image

第六步:点击评测按钮,针对应用或模型结果进行打标,完成评测。

image

通过对比评测集结果和应用A的结果,给出综合评价【较差、一般、较好】点击保存并下一个。完成全部评测集打标,及评测完成。

image

评测完成后,可以点击结果查看评测结果内容。

image

image

模型日志评测

第一步:选择模型日志评测方式;

image

第二步:选择采样方式。并输入采样总量。

说明

顺序采样:按照对话日志对话顺序依次采样,从第一条开始,采样至总量中的最后一条。

随机采样:随机进行采样,采样至总量停止。

预计总量:通过选择采样时间段来采样数据,默认采样一周以内数据,选择时间段后,系统将自动该时间段内预估的数据量。

采样总量:总数不能大于预估总量且不能小于1。

image

第三步:模型日志评测不需要评测维度的选择。进行开始评测。

image

image

剩余操作方式同上方介绍应用批量评测内容一致。

  • 本页导读 (1)
文档反馈