本文为您介绍如何创建模型评测任务。
模型评测会产生模型服务调用费用,每个被评测的模型均会按Token量进行计费(独立部署模型除外)。关于Token的计算方法和模型的计费详情,请参见产品计费。
登录阿里云百炼大模型服务平台。
在左侧导航栏中,选择 。
在模型评测页面,单击创建评测任务。
在创建评测任务页面,您可以参考以下步骤进行创建。
人工评测
说明本文以选择对比评测类型为例,说明如何创建人工评测方式的评测任务。
选中人工评测方式和对比评测类型。
在选择模型下拉列表中选中至少2个目标模型(模型测评数量最多20个),选择评测数据和维度模板,完成后单击开始评测。
您可以单击计费详情查看详细计费规则。
您可以单击刷新,查看模型评测任务的最新评测状态。当评测状态为标注中时,单击标注。
在模型评测标注页面,您可以参考下图进行评测任务的标注,完成后单击完成评测并提交。界面会提示该评测任务已打标。在模型评测的任务列表页面,您可以看到目标评测任务的评测状态为已完成。
可选:您可以按需单击目标评测任务右侧操作列下的结果、查看、删除和下载。
自动评测
说明本文以选择AI评测指标和评分模式的评测类型为例,说明如何创建自动评测方式的评测任务。
选中自动评测方式、AI评测指标和评分模式评测类型。
其他配置项您可按需选择,完成后单击开始评测。
您可以单击计费详情查看详细计费规则。
您可以单击刷新,查看目标评测任务的最新评测状态。
当评测状态为已完成时,您可以单击目标评测任务右侧操作列下的结果,在自动评测报告和评测题目明细页签查看评测详情。
基线评测
选中基线评测方式,在选择模型下拉框中选择目标评测模型。
选择评测数据,支持选择多个,完成后单击开始评测。
您可以单击计费详情查看详细计费规则。
说明学科:包含自然学科、社会科学、人文科学、其他四大学科。评测数据抽样于C-EVAL、CMMLU及BoolQ榜单评测集,可评价大模型针对常识性知识、一般性知识的能力水平。
数学:评测数据抽样于Math23K榜单评测集,可评价大模型在数据计算方面的能力水平,如根据给定的问题,生成正确的数学表达式。
推理:评测数据抽样于CMNLI、OCNLI榜单评测集,可评价大模型在中文自然语言推理方面的能力水平,如判断两个句子之间逻辑关系(蕴含、矛盾)。
您可以单击刷新,查看目标评测任务的最新评测状态。
当评测状态为已完成时,您可以单击目标评测任务右侧操作列下的结果,在基线评分总览页面查看评测详情。
后续步骤
模型评测完成后,您即可开始模型调用,将大模型能力集成到自己的业务链路中。具体操作请参见模型中心。