文档

模型评测

更新时间:
一键部署

通过模型评测,来检验训练出来的模型是否能够给出自己所期望的结果。

完成模型部署后,如需测试模型的效果,可在模型评测中进行评测,模型评测需要首先构建评测的数据集,构建方法类似于训练集的构建,数据格式同样是问答Pair对,对于Prompt而言往往是需要验证的问题,对于Completion而言往往是评测参考的答案,最终通过对比模型结果与参考答案,同时综合考虑模型结果的正确性,对模型结果进行打分或排序,得到模型真实效果。

模型评测有两种模式,解释如下:

评测方式

评测效果

单个评测

单个评测主要用来评测单一模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测模型结果,并且同时展示评测集中预置的评测结果作为参考,针对模型预测结果进行打分后,可判断模型效果。

对比评测

对比评测主要用来评测多个模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测每个模型的结果,并且同时展示评测集中预置的评测结果作为参考,对比评测支持针对每个参与评测的模型进行打分,同时支持模型排序,通过评测结果可判断不同模型之间的效果差异

注意,对于对比评测而言,进行对比的每个微调模型均需独立部署方可进行评测,针对基础模型的评测将计量token调用费用,详情请见产品价格详情。

一般训练或部署了单个模型的情况下,我们会进行单个评测,如果我们训练或部署了多个模型,希望对比不同模型的效果,则可选择对比评测模式进行评测。

操作示例

路径:模型工具--模型评测--创建评测任务。

image

选择评测方式,页面上方有不同评测方式介绍,按需选择,建议选择单个评测。

image

imageimage

评测任务开始后,点击评测,可以自行对数据进行打标。

image

image

评测完成后可以点击下载查看评测结果。

image

重要

模型评测会产生模型服务调用费用,每个被评测的模型均会进行计费,计费逻辑与模型推理服务一致,按照token量进行计费。

  • 本页导读 (1)
文档反馈