手动评测-大模型服务平台百炼(Model Studio)-阿里云帮助中心

大模型应用手动评测是一种基于应用维度评估应用效果的方法，通过针对特定业务场景来人工构建评测集，并对应用的回答进行人工分析与评分，产出评测报告。

效果展示

手动评测通过人工构建评测集，并对应用回答进行人工分析与评分，最终产出评测报告。

第一步：准备评测集

需先下载评测集模板，按照模板内容进行补充内容。示例评测集文件应用评测-评测集-EfmApplicationdata.xlsx

说明

Prompt：即提示词，简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述，甚至可以是带有一堆参数的文字描述。

Completion：Prompt对应的内容。可以是答案、一段文字描述。

SessionId：会话ID，可以自定义编写。

第二步：上传评测集

访问应用评测的评测集页面。
单击创建评测集，自定义评测集名称，上传准备好的评测集文件。
说明
支持扩展名：xls、xlsx，文件最大20M，单次最多上传10个文件。
单击确认后，将在评测集页面显示上传的文件。
等待导入状态为导入成功时，单击操作列的发布，发布当前评测集。
草稿状态的评测集不能用于应用评测，必须发布后再使用。

第三步：创建评测任务

访问手动评测页面，单击创建评测任务。在应用批量评测的下拉列表中选择已发布的智能体应用，单击下一步。当前仅支持选择已发布的智能体应用。说明应用批量评测：应用批量评测需要选择评测集进行评测，适用于应用上线前端到端效果验证。
选择已经完成上传并发布的评测集，单击下一步。
选择评测维度，单击下一步。如果未配置自定义评测维度模板，可以选择内置模板。
自定义修改任务名称，查看评测任务的完整信息、单击计算详情查看预估费用。确认无误后单击开始评测。说明预估费用：应用批量评测将基于评测集进行推理获取模型结果，使用公共资源部署模型，可能产生Tokens调用费用或消耗Tokens流量包，使用独占资源部署模型，不收费，请确认后开始评测，费用说明如下评测费用=评测产生的Tokens * 模型调用单价评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量，最终以实际产生的费用为准。
等待评测状态为标注中时，单击操作列的标注按钮，针对应用生成结果进行打标。 “打标”是指对应用生成的结果和评测集中的标准答案进行对比，并对应用生成的结果进行评价（如“较差”“一般”“较好”）或者打分（如1-5分）。通过打标，可以识别应用在不同场景下的表现优劣。对比评测集结果和应用A生成的结果，给出综合评价【较差、一般、较好】，单击保存并下一个。
对评测集中的每条数据打标后，单击完成评测并提交，完成应用评测。

查看评测结果

评测完成后，评测状态显示已完成。单击操作列的结果查看评测结果详情。

访问手动评测页面，单击创建评测任务。在应用批量评测的下拉列表中选择已发布的智能体应用，单击下一步。当前仅支持选择已发布的智能体应用。说明应用批量评测：应用批量评测需要选择评测集进行评测，适用于应用上线前端到端效果验证。
选择已经完成上传并发布的评测集，单击下一步。
选择评测维度，单击下一步。如果未配置自定义评测维度模板，可以选择内置模板。
自定义修改任务名称，查看评测任务的完整信息、单击计算详情查看预估费用。确认无误后单击开始评测。说明预估费用：应用批量评测将基于评测集进行推理获取模型结果，使用公共资源部署模型，可能产生Tokens调用费用或消耗Tokens流量包，使用独占资源部署模型，不收费，请确认后开始评测，费用说明如下评测费用=评测产生的Tokens * 模型调用单价评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量，最终以实际产生的费用为准。
等待评测状态为标注中时，单击操作列的标注按钮，针对应用生成结果进行打标。 “打标”是指对应用生成的结果和评测集中的标准答案进行对比，并对应用生成的结果进行评价（如“较差”“一般”“较好”）或者打分（如1-5分）。通过打标，可以识别应用在不同场景下的表现优劣。对比评测集结果和应用A生成的结果，给出综合评价【较差、一般、较好】，单击保存并下一个。
对评测集中的每条数据打标后，单击完成评测并提交，完成应用评测。