应用评测_大模型服务平台百炼(Model Studio)-阿里云帮助中心

本篇文档介绍应用评测任务创建及评测集内容。

定义

应用评测基于应用维度评估模型或应用的真实使用效果，通过批量评测、拉取模型或应用的线上日志数据，端到端评估应用效果，支持使用评测集完成批量评测，或采样应用线上日志数据进行评测，可根据业务需要进行选择。

需先下载评测集模板，按照模板内容进行补充内容。示例文档应用评测-评测集-EfmApplicationdata.xlsx

说明

Prompt：即提示词，简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述，甚至可以是带有一堆参数的文字描述。

Completion：Prompt对应的内容。可以是答案、一段文字描述。

SessionId：会话ID，可以自定义编写。

将准备好的评测集，点击上传评测集，将文件内容上传，点击完成后，在评测集中展示上传的内容。

说明

支持扩展名：xls、xlsx，文件最大20M，单次最多上传10个文件。

第一步：点击创建评测任务，选择评测方式，选择应用批量评测。

说明

应用批量评测：应用批量评测需要选择评测集进行评测，适用于应用上线前端到端效果验证。

模型日志评测：适用于上线后拉取真实用户数据验证或回测业务线上效果。

第二步：选择已经上传完成的评测集，也可以直接在任务中上传评测集数据。

第三步：选择评测维度，未配置的话以默认为准，评测维度详情可以查看评测维度。

第四步：开始评测。任务名称可以自定义修改。可以查看评测任务的完整信息。以及预估费用展示。确认后点击开始评测。

说明

预估费用：应用批量评测将基于评测集进行推理获取模型结果，使用公共资源部署模型，可能产生Tokens调用费用或消耗Tokens流量包，使用独占资源部署模型，不收费，请确认后开始评测，费用说明如下

评测费用=评测产生的Tokens * 模型调用单价

评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量，最终以实际产生的费用为准。

第五步：评测任务开始执行。等待评测状态为评测中。

第六步：点击评测按钮，针对应用或模型结果进行打标，完成评测。

通过对比评测集结果和应用A的结果，给出综合评价【较差、一般、较好】点击保存并下一个。完成全部评测集打标，及评测完成。

评测完成后，可以点击结果查看评测结果内容。

第一步：选择模型日志评测方式；

第二步：选择采样方式。并输入采样总量。

说明

顺序采样：按照对话日志对话顺序依次采样，从第一条开始，采样至总量中的最后一条。

随机采样：随机进行采样，采样至总量停止。

预计总量：通过选择采样时间段来采样数据，默认采样一周以内数据，选择时间段后，系统将自动该时间段内预估的数据量。

采样总量：总数不能大于预估总量且不能小于1。

第三步：模型日志评测不需要评测维度的选择。进行开始评测。

剩余操作方式同上方介绍应用批量评测内容一致。