本篇文档介绍应用评测任务创建及评测集内容。
定义
应用评测基于应用维度评估模型或应用的真实使用效果,通过批量评测、拉取模型或应用的线上日志数据,端到端评估应用效果,支持使用评测集完成批量评测,或采样应用线上日志数据进行评测,可根据业务需要进行选择。
评测集准备
需先下载评测集模板,按照模板内容进行补充内容。示例文档应用评测-评测集-EfmApplicationdata.xlsx
Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。
Completion:Prompt对应的内容。可以是答案、一段文字描述。
SessionId:会话ID,可以自定义编写。
上传评测集
将准备好的评测集,点击上传评测集,将文件内容上传,点击完成后,在评测集中展示上传的内容。
支持扩展名:xls、xlsx,文件最大20M,单次最多上传10个文件。
创建评测任务
应用批量评测
第一步:点击创建评测任务,选择评测方式,选择应用批量评测。
应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证。
模型日志评测:适用于上线后拉取真实用户数据验证或回测业务线上效果。
第二步:选择已经上传完成的评测集,也可以直接在任务中上传评测集数据。
第三步:选择评测维度,未配置的话以默认为准,评测维度详情可以查看评测维度。
第四步:开始评测。 任务名称可以自定义修改。可以查看评测任务的完整信息。以及预估费用展示。确认后点击开始评测。
预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下
评测费用=评测产生的Tokens * 模型调用单价
评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。
第五步:评测任务开始执行。等待评测状态为评测中。
第六步:点击评测按钮,针对应用或模型结果进行打标,完成评测。
通过对比评测集结果和应用A的结果,给出综合评价【较差、一般、较好】点击保存并下一个。完成全部评测集打标,及评测完成。
评测完成后,可以点击结果查看评测结果内容。
模型日志评测
第一步:选择模型日志评测方式;
第二步:选择采样方式。并输入采样总量。
顺序采样:按照对话日志对话顺序依次采样,从第一条开始,采样至总量中的最后一条。
随机采样:随机进行采样,采样至总量停止。
预计总量:通过选择采样时间段来采样数据,默认采样一周以内数据,选择时间段后,系统将自动该时间段内预估的数据量。
采样总量:总数不能大于预估总量且不能小于1。
第三步:模型日志评测不需要评测维度的选择。进行开始评测。
剩余操作方式同上方介绍应用批量评测内容一致。