大模型应用手动评测是一种基于应用维度评估应用效果的方法,通过针对特定业务场景来人工构建评测集,并对应用的回答进行人工分析与评分,产出评测报告。
效果展示
手动评测通过人工构建评测集,并对应用回答进行人工分析与评分,最终产出评测报告。
第一步:准备评测集
需先下载评测集模板,按照模板内容进行补充内容。示例评测集文件应用评测-评测集-EfmApplicationdata.xlsx
Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。
Completion:Prompt对应的内容。可以是答案、一段文字描述。
SessionId:会话ID,可以自定义编写。
第二步:上传评测集
第三步:创建评测任务
| |
| |
| |
说明 预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下 评测费用=评测产生的Tokens * 模型调用单价 评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。 | |
| |
|
查看评测结果
评测完成后,评测状态显示已完成。单击操作列的结果查看评测结果详情。