执行模型评测任务

本文为您介绍执行人工评测任务的过程。

自动评测基线评测任务系统将会自动执行(无需人工介入),您可以跳过下文内容,直接查看模型评测结果

操作步骤

在百炼的模型评测页面,当任务的评测状态标注中时,单击标注

单个评测

  1. 比较评测集结果模型A输出的结果

  2. 对模型A输出的结果进行评价。

    建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见
  3. 单击保存并下一个

    如果单击跳过,在评测结果中该Prompt将被标记为未打标
  4. 完成所有Prompt的评价后,单击完成评测并提交

  5. 返回任务列表页面,若评测状态变更为已完成,表示您已经完成了模型评测。

对比评测

  1. 比较评测集结果模型A输出的结果

  2. 评测结果中对模型A输出的结果进行评价。

    建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见
  3. 鼠标置于模型A上,长按鼠标左键,将模型A拖拽到页面底部相应的排名位置上。

  4. 重复上述操作,对模型B输出的结果进行评价和排名(支持并列),其它模型以此类推。

    111

  5. 单击保存并下一个

  6. 完成所有数据的评价和排序后,单击完成评测并提交

  7. 返回任务列表页面,若评测状态变更为已完成,表示您已经完成了模型评测。

下一步

请参见查看模型评测结果