本篇文档介绍应用评测任务创建及评测集内容。
定义
应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型,端到端评估应用效果,使用评测集完成批量评测。
评测集准备
需先下载评测集模板,按照模板内容进行补充内容。示例文档应用评测-评测集-EfmApplicationdata.xlsx
Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。
Completion:Prompt对应的内容。可以是答案、一段文字描述。
SessionId:会话ID,可以自定义编写。
上传评测集
访问应用评测的评测集页面,将准备好的评测集,单击新增数据集,将文件内容上传
支持扩展名:xls、xlsx,文件最大20M,单次最多上传10个文件。
单击确认后,在评测集页面展示上传的内容,在操作列单击发布当前数据集
创建评测任务
第一步:访问应用评测的任务列表页面,单击创建评测任务,选择应用。 应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证。 | |
第二步:选择已经完成上传并发布的评测集。 | |
第三步:选择评测维度,未配置的话以默认为准,评测维度详情可以查看评测维度。 | |
第四步:开始评测。
确认后单击开始评测。 预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下 评测费用=评测产生的Tokens * 模型调用单价 评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。 | |
第五步:评测任务开始执行。等待时评测状态为执行中。 | |
第六步:评测状态为标注中时,单击标注按钮,针对应用或模型结果进行打标。 通过对比评测集结果和应用A的结果,给出综合评价【较差、一般、较好】单击保存并下一个。 | |
第七步:完成全部评测集打标,单击完成评测并提交,完成应用评测。 |
查看评测结果
评测完成后,评测状态显示已完成,可以单击结果查看评测结果内容。
- 本页导读 (1)
- 定义
- 评测集准备
- 上传评测集
- 创建评测任务
- 查看评测结果