文档

创建模型评测任务并查看评测结果

更新时间:

本文为您介绍如何创建模型评测任务

重要

模型评测会产生模型服务调用费用,每个被评测的模型均会按Token量进行计费(独立部署模型除外)。关于Token的计算方法和模型的计费详情,请参见产品计费

  1. 登录阿里云百炼大模型服务平台

  2. 在左侧导航栏中,选择模型工具 > 模型评测

  3. 模型评测页面,单击创建评测任务image

  4. 创建评测任务页面,您可以参考以下步骤进行创建。

    人工评测

    说明

    本文以选择对比评测类型为例,说明如何创建人工评测方式的评测任务。

    1. 选中人工评测方式和对比评测类型。

    2. 选择模型下拉列表中选中至少2个目标模型(模型测评数量最多20个),选择评测数据和维度模板,完成后单击开始评测image

      您可以单击计费详情查看详细计费规则。

    3. 您可以单击image刷新,查看模型评测任务的最新评测状态image当评测状态为image标注中时,单击标注image

    4. 在模型评测标注页面,您可以参考下图进行评测任务的标注,完成后单击完成评测并提交111界面会提示该评测任务已打标image模型评测的任务列表页面,您可以看到目标评测任务的评测状态已完成image

    5. 可选:您可以按需单击目标评测任务右侧操作列下的结果查看删除下载image

    自动评测

    说明

    本文以选择AI评测指标和评分模式的评测类型为例,说明如何创建自动评测方式的评测任务。

    1. 选中自动评测方式、AI评测指标和评分模式评测类型。

    2. 其他配置项您可按需选择,完成后单击开始评测image

      您可以单击计费详情查看详细计费规则。

    3. 您可以单击image刷新,查看目标评测任务的最新评测状态image

    4. 评测状态已完成时,您可以单击目标评测任务右侧操作列下的结果,在自动评测报告评测题目明细页签查看评测详情。image

    基线评测

    1. 选中基线评测方式,在选择模型下拉框中选择目标评测模型。

    2. 选择评测数据,支持选择多个,完成后单击开始评测image

      您可以单击计费详情查看详细计费规则。

      说明
      • 学科:包含自然学科、社会科学、人文科学、其他四大学科。评测数据抽样于C-EVAL、CMMLU及BoolQ榜单评测集,可评价大模型针对常识性知识、一般性知识的能力水平。

      • 数学:评测数据抽样于Math23K榜单评测集,可评价大模型在数据计算方面的能力水平,如根据给定的问题,生成正确的数学表达式。

      • 推理:评测数据抽样于CMNLI、OCNLI榜单评测集,可评价大模型在中文自然语言推理方面的能力水平,如判断两个句子之间逻辑关系(蕴含、矛盾)。

    3. 您可以单击image刷新,查看目标评测任务的最新评测状态

    4. 评测状态已完成时,您可以单击目标评测任务右侧操作列下的结果,在基线评分总览页面查看评测详情。image

后续步骤

模型评测完成后,您即可开始模型调用,将大模型能力集成到自己的业务链路中。具体操作请参见模型中心