本文为您介绍执行人工评测任务的过程。
自动评测和基线评测任务系统将会自动执行(无需人工介入),您可以跳过下文内容,直接查看模型评测结果。
操作步骤
在百炼的模型评测页面,当任务的评测状态为标注中时,单击标注。
单个评测
比较评测集结果和模型A输出的结果。
对模型A输出的结果进行评价。
建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见。
单击保存并下一个。
如果单击跳过,在评测结果中该Prompt将被标记为未打标。
完成所有Prompt的评价后,单击完成评测并提交。
返回任务列表页面,若评测状态变更为已完成,表示您已经完成了模型评测。
对比评测
比较评测集结果和模型A输出的结果。
在评测结果中对模型A输出的结果进行评价。
建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见。
鼠标置于模型A上,长按鼠标左键,将模型A拖拽到页面底部相应的排名位置上。
重复上述操作,对模型B输出的结果进行评价和排名(支持并列),其它模型以此类推。
单击保存并下一个。
完成所有数据的评价和排序后,单击完成评测并提交。
返回任务列表页面,若评测状态变更为已完成,表示您已经完成了模型评测。
下一步
请参见查看模型评测结果。
文档内容是否对您有帮助?