手动评测

大模型应用手动评测是一种基于应用维度评估应用效果的方法,通过针对特定业务场景来人工构建评测集,并对应用的回答进行人工分析与评分,产出评测报告。

效果展示

手动评测通过人工构建评测集,并对应用回答进行人工分析与评分,最终产出评测报告。

image

第一步:准备评测集

需先下载评测集模板,按照模板内容进行补充内容。示例评测集文件应用评测-评测集-EfmApplicationdata.xlsx

说明

Prompt:即提示词,简单的理解为它是给大模型的指令。它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。

Completion:Prompt对应的内容。可以是答案、一段文字描述。

SessionId:会话ID,可以自定义编写。

第二步:上传评测集

  1. 访问应用评测评测集页面。

  2. 单击创建评测集,自定义评测集名称,上传准备好的评测集文件。

    说明

    支持扩展名:xls、xlsx,文件最大20M,单次最多上传10个文件。

    image

  3. 单击确认后,将在评测集页面显示上传的文件。

  4. 等待导入状态导入成功时,单击操作列的发布,发布当前评测集。

    草稿状态的评测集不能用于应用评测,必须发布后再使用。

    image

第三步:创建评测任务

  1. 访问手动评测页面,单击创建评测任务。在应用批量评测的下拉列表中选择已发布的智能体应用,单击下一步

    当前仅支持选择已发布的智能体应用
    说明

    应用批量评测:应用批量评测需要选择评测集进行评测,适用于应用上线前端到端效果验证。

image

  1. 选择已经完成上传并发布的评测集,单击下一步

image

  1. 选择评测维度,单击下一步

    如果未配置自定义评测维度模板,可以选择内置模板。

image

  1. 自定义修改任务名称,查看评测任务的完整信息、单击计算详情查看预估费用。

    确认无误后单击开始评测

说明

预估费用:应用批量评测将基于评测集进行推理获取模型结果,使用公共资源部署模型,可能产生Tokens调用费用或消耗Tokens流量包,使用独占资源部署模型,不收费,请确认后开始评测,费用说明如下

评测费用=评测产生的Tokens * 模型调用单价

评测产生的Tokens总量包括评测集Tokens总量及推理结果Tokens总量,最终以实际产生的费用为准。

image

  1. 等待评测状态为标注中时,单击操作列的标注按钮,针对应用生成结果进行打标

    “打标”是指对应用生成的结果和评测集中的标准答案进行对比,并对应用生成的结果进行评价(如“较差”“一般”“较好”)或者打分(如1-5分)。通过打标,可以识别应用在不同场景下的表现优劣。

    image

    对比评测集结果和应用A生成的结果,给出综合评价【较差、一般、较好】,单击保存并下一个

    image

  1. 对评测集中的每条数据打标后,单击完成评测并提交,完成应用评测。

image

查看评测结果

评测完成后,评测状态显示已完成。单击操作列的结果查看评测结果详情。

image

image