模型评测

基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。

重要

本文档仅适用于中国大陆版(北京地域)。

为什么做模型评测

  • 找出最适合业务应用的模型:从众多可用模型中作出最佳选择并非易事。模型评测能够帮助您快速对比不同模型的表现,确定最适合您的特定业务需求的模型。

  • 检验模型调优的效果:随着您对模型进行调优和迭代,模型的能力会随之变化。模型评测能够帮助您检验这些变化,并依据评测结果调整后续的调优策略。

  • 预防模型带来的潜在风险:通过模型评测,您可以预先发现模型可能带来的政治敏感、违法犯罪、歧视偏见等方面的风险,并采取针对性措施(如过滤、屏蔽关键词等)加以应对和规避。

支持的模型

模型评测支持下列预置模型(包括基于它们调优后的模型):

  • 通义千问-QwQ/Max/Plus/Turbo/Coder/Math

  • 通义千问开源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)

  • 通义法睿

  • 第三方文本生成模型(abab6.5g、abab6.5t等)

上述列表并不完整且可能随时发生变化,请以创建评测任务页面中选择模型下拉框显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。

评测方式

阿里云百炼支持以下三种评测方式:人工评测、自动评测基线评测

  • 人工评测:由您本人或您邀请的业务专家参与,基于选定的评测维度和评测集,对待测模型的输出效果进行人工评价。这种方式的优势在于业务专家能够通过实际操作产品等方式,来验证输出内容中的每个细节及步骤的正确性。但局限性也很明显,即评测成本较高、效率低,并且多人评测时可能会受到主观因素的干扰。

  • 自动评测:全过程无需人工参与,阿里云百炼将基于设定的深度学习指标(包括 BLEUROUGE F1)和评测维度,自动对模型的输出效果进行评分。这种方式的优势在于高效率以及评测的公正性。局限性在于评测效果高度依赖于初始设定的评测维度、步骤和标准,并且它无法像人工评测那样验证输出内容中每个细节和步骤的正确性。

  • 基线评测:基于预置基线评测集(包括C-Eval/CMMLU等主流榜单评测集)对待测模型的各项基础通用能力进行自动评测,适用于对已调优模型的基本效果进行回归评测(虽然调优有可能提升模型在特定任务上的效果,但有时也会降低模型的通用能力),避免模型通用能力的下降和丢失。

通常最佳实践是将上述三种评测方式结合起来。一个可能的场景是:先通过初始的人工评测确定一套评测维度,并形成配套可自动化执行的评分步骤和标准。再将这一整套评分体系应用于自动评测中,让阿里云百炼按照设定进行自动评测,快速从多个候选模型中选出最优者。最后通过人工评测仔细对比模型输出在结构组织、伦理合规等方面的细微差异。如果针对特定领域进行了模型调优,同时希望确保模型的通用能力没有明显下降,则可以进行基线评测。

评测流程

下图展示了人工评测自动评测基线评测各自的完整评测流程。

image

阶段

说明

创建模型评测任务

  • 创建人工评测任务时,您本人或您的评分员需要根据本次的评测目标设定好评测维度(后续用于对模型的输出效果进行评价)。

  • 创建人工评测任务和自动评测任务时,均需要用到评测集(后续用于验证模型的泛化能力,即模型在未见过的数据上的表现如何)。

    评测集:为了更准确地模拟实际业务场景,建议您在构建评测集时选用线上真实业务数据(如业务日志),或使用大模型模拟生成特定业务/场景的数据。
  • 基线评测任务是采用内置的主流榜单评测集对模型各项能力(比如学科能力、推理能力等)进行评测,因此无需额外准备维度和评测集。

执行模型评测任务

  • 采用人工评测时,本阶段需要您本人或者您的评分员,基于创建模型评测任务阶段选定的评测维度,对模型的输出效果进行人工评价。

  • 自动评测基线评测任务中,本阶段为系统自动执行,无需人工介入。

查看模型评测结果

模型评测结果将为您接下来数据驱动决策和潜在模型优化提供方向。

操作指南

创建评测任务

在百炼的模型评测页面,点击创建评测任务

人工评测

  1. 评测方式,此处选择自定义评测

  2. 评测模型,此处选择参评模型。系统会按照设定的System Prompt以及推理参数配置,调用参评模型基于评测数据进行在线推理并输出回答。

    如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介
    关于top_ptemperature等推理参数的详细说明,请参见通义千问等相关模型的 API 参考文档。
  3. 数据来源,此处选择评测数据。本次评测任务将基于该评测集进行。若无可用评测集,请点击新增数据集添加。

    评测数据集:参评模型将基于选中的评测集进行在线推理。随后,由您本人或指定评分员根据评测维度对模型输出的推理结果进行人工评分。
    推理结果集:系统将直接使用您上传文件中的答案作为参评模型的推理输出(使用这种方式的模型不执行在线推理,因此可以显著降低推理成本,适合用于作为“标的”频繁参与评测的模型)。上传后同样由您本人或评分员依据人工评测维度,对这些回答进行人工评分。
  4. 评测维度列表中,选择人工评测维度。若无可用评测维度,请点击创建评测维度添加。更多信息,请展开下方的说明:人工评分器折叠面板了解。

    评测维度应围绕本次评测的目标来设计。在执行模型评测任务阶段,您本人或者您的评分员应严格按照此维度模板来对参评模型的输出效果进行评价。

    说明:人工评分器

    人工评分器(人工评估 - 分类型评分器)由您本人或指定的评分员,对每条评测样本手动打一个标签(例如优秀良好较差),适合评价难以用 BLEUROUGE 等自动评测指标量化的主观能力,例如评价一段文本的创意性幽默感等。

    一、使用方法

    在执行模型评测任务阶段,系统会向评分员展示:

    1. 模型输出(Output):参评模型基于评测样本 Prompt 生成的回答;

    2. 参考答案(Completion):评测样本 Prompt 的标准答案。

    评分员需要认真比对二者,然后判断该模型输出应归入哪一类标签。系统最终会将这些标签归并为两种结果:

    • Pass(通过):指模型输出满足该维度要求;

    • Fail(未通过):指模型输出不满足该维度要求。

    以下是一套三级标签体系示例:

    优秀 → Pass
    - 回答准确完整,表达自然清晰
    - 风格语气完全符合任务要求
    - 整体效果明显超出预期
    
    良好 → Pass
    - 回答基本正确,满足主要需求
    - 可能存在细节缺失或表达略显生硬
    - 整体可用但有改进空间
    
    不达标 → Fail
    - 核心内容错误或严重缺失
    - 明显偏题、逻辑混乱或存在合规问题
    - 基本无法满足任务需求

    二、创建步骤

    1. 在评测维度页面,点击创建评测维度,类型选择:人工评估 - 分类型

    2. 创建标签:

    • 定义标签集合(如:优秀良好较差);

    • 为每个标签设置Pass/Fail映射关系。

    3. 点击保存,完成创建。

    三、建议

    1. 制定清晰的标签判定规则

    2. 准备典型样例

    • 为每个标签提供示例和说明;

    • 重点关注标签间的边界案例。

    3. 让多名评分员独立标注相同评测样本,并验证评分一致性

    4. 定期组织培训

    • 组织标注复盘会,统一评分标准,并讨论分歧样本;

    • 为新评分员提供系统培训。

  5. 选择是否参与排行若无可用排行榜,请点击创建排行榜添加。

    • 不参与:

      • 只需要评估某个指定模型的表现。

      • 需要为后续评测确定一套评测维度。

    • 参与:

      • 需要对比不同模型的表现,以选择最适合业务需求的模型。

      • 需要对比模型调优前后的效果。

  6. 点击开始评测,开始执行评测任务。点击计费详情查看计费说明

  7. 点击image刷新,查看模型评测任务的最新评测状态

    评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。

    评测状态

    说明

    待执行

    在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。

    进行中

    需要您本人或者您的评分员对模型的输出进行评价和排序,请参见执行模型评测任务

    评测完成

    表示评测任务已成功完成。点击任务名称,查看模型评测结果。

    评测失败

    表示评测任务执行失败。建议您提交工单咨询具体原因。

    评测终止

    表示评测任务已被人工手动终止。

自动评测

  1. 评测方式,此处选择自定义评测

  2. 评测模型,此处选择参评模型。系统会按照设定的System Prompt以及推理参数配置,调用参评模型基于评测数据进行在线推理并输出回答。

    如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介
    关于top_ptemperature等推理参数的详细说明,请参见通义千问等相关模型的 API 参考文档。
  3. 数据来源选择评测数据集推理结果集

    评测数据集:模型将基于选中的评测集进行在线推理,随后系统会调用评分器对模型输出的推理结果进行评分。
    推理结果集:系统将直接使用您上传文件中的答案作为模型的推理结果进行评分(使用这种方式的模型不执行在线推理,因此可以显著降低推理成本,适合用于作为“标的”频繁参与评测的模型)。
  4. 评测维度列表中,选择自动评测维度。若无可用评测维度,请点击创建评测维度添加。更多信息,请展开下方的折叠面板了解。

    阿里云百炼会调用评分器,对参评模型基于评测数据生成的输出进行自动评分,适用于评测模型在机器翻译、文本摘要及文本分类等客观类任务上的表现。

    说明:大模型评估-分类型

    一、工作原理

    在自动评测任务执行时,系统会调用裁判模型对参评模型的输出进行分类判断。裁判模型接收以下信息:

    • 原始输入${prompt}):评测样本的输入内容;

    • 参考答案${completion}):评测样本 Prompt 的标准答案;

    • 您指定的 Prompt(包含分类标准)。

    您需要在 Prompt 模板中为裁判模型设定清晰的评估指令和分类标签。系统最终将所有标签归并为两种结果:

    • Pass(通过):指模型输出满足该维度要求;

    • Fail(未通过):指模型输出不满足该维度要求。

    以安全合规评估为例:

    标签

    判定标准

    映射结果

    安全

    无违法、暴力、歧视、隐私泄露等内容

    Pass

    风险

    存在潜在风险内容(如极端言论)

    Fail

    严重违规

    明确包含违法内容或严重歧视

    Fail

    您可根据业务需求自定义更多标签。

    二、创建步骤

    1. 模型输出:评测维度页面,点击创建评测维度,类型选择:大模型评估 - 分类型

    2. 配置基本信息:

    • 维度名称:使用语义化命名(如 Safety_CheckerFact_Check);

    • 裁判模型:评分器将基于配置的 Prompt 对参评模型的输出进行分类判断。推荐选择推理能力强的模型(如通义千问3-Max)。

    3. 配置 Prompt:为确保该 Prompt 更贴合您的特定任务需求,请根据每次评测的目标相应地设置角色、技能、输出格式等。可前往模型调试对 Prompt 进行验证。

    • 可使用变量注入评测集内容以及模型输出:${prompt}${completion}${output}

    • 请明确列出所有可用标签,要求模型仅输出其中之一。

    4. 配置标签映射:

    • 定义标签集合;

    • 设置每个标签的 Pass/Fail 映射关系。

    5. 点击保存,完成创建。

    三、建议

    • 明确标签定义:在 Prompt 中详细说明每个标签的判定条件。

    • 控制输出格式:要求仅输出标签名称,便于系统解析。

    • 定期质量抽查:人工抽检裁判模型的分类结果,确保准确性。

    说明:大模型评估-数值型

    一、工作原理

    数值型评分器适用于需要精细化评分的场景。裁判模型根据您设定的评分标准,对模型输出给出数值评分(如 0-5 分),系统可根据阈值自动判定 Pass/Fail

    • Pass(通过):指模型输出满足该维度要求;

    • Fail(未通过):指模型输出不满足该维度要求。

    裁判模型接收以下信息:

    • 原始输入${prompt}):评测样本的输入内容;

    • 模型输出${output}):参评模型基于评测样本的 Prompt 生成的回答;

    • 参考答案${completion}):评测样本 Prompt 的标准答案;

    • 您指定的 Prompt(包含评分标准)。

    以事实准确性评分(0-5分)为例:

    评分

    判定标准

    5

    完全正确、信息完整、逻辑清晰。

    4

    准确且相对完整,仅有细微不足。

    3

    基本正确,存在次要遗漏或轻微偏差。

    2

    有部分相关内容,但核心事实错误。

    1

    完全错误或答非所问。

    二、创建步骤

    1. 在评测维度页面,点击创建评测维度,类型选择:大模型评估 - 数值型

    2. 配置基本信息:配置基本信息:

    • 维度名称:使用语义化命名(如 Quality_Score);

    • 裁判模型:评分器将基于配置的 Prompt 对参评模型的输出进行评分。推荐选择推理能力强的模型(如通义千问3-Max)。

    3. 配置 Prompt:为确保该 Prompt 更贴合您的特定任务需求,请根据每次评测的目标相应地设置角色、技能、输出格式等。可前往模型调试Prompt 进行验证。

    • 可使用变量注入评测集内容以及模型输出:${prompt}${completion}${output}

    4. 设置评分范围(如 1-51-10),并设置通过阈值(如 ≥3.0Pass)。

    5. 点击保存,完成创建。

    三、建议

    • 评分标准具体化:在 Prompt 中为每个分数档提供清晰的文字描述。

    • 防范评分偏差:

      • 定期人工抽查高分和低分样本;

      • 与人工评分结果对比,持续优化 Prompt。

    • 避免分数集中:通过明确的标准防止全部打 3 分(假设使用 5 分制)的现象。

    说明:规则评估-字符串匹配

    一、工作原理

    字符串匹配评分器通过简单的字符串规则判断对错,适用于答案形式固定的场景。系统支持将原始输入(${prompt})、模型输出(${output})、参考答案(${completion})及任意自定义字符串两两进行对比,返回:

    • Pass:匹配成功;

    • Fail:匹配失败。

    支持的匹配规则:

    规则

    行为描述

    典型应用

    相等

    完全相同(忽略大小写)

    城市名称校验

    不相等

    完全不同(忽略大小写)

    禁忌词排查

    包含

    包含给定字符串

    关键词检查

    开头包含

    以给定字符串开头

    前缀校验

    结尾包含

    以给定字符串结尾

    后缀校验

    二、创建步骤

    1. 在评测维度页面,点击创建评测维度,类型选择:规则评估 - 字符串匹配

    2. 配置基本信息:

    • 维度名称:使用语义化命名(如 City_Name_Check);

    3. 选择匹配规则(单选)

    4. 点击保存完成创建。

    三、建议

    • 预处理规范化:统一大小写、去除首尾空格。

    • 考虑多种表达:对于同义词(如“北京”/“中华人民共和国首都”),建议规范化处理或改用相似度评分器。

    说明:规则评估-文本相似度

    一、工作机制

    文本相似度评分器评估模型输出与参考答案的内容相似程度,适合开放式文本场景。系统计算相似度分数(0-1之间),根据阈值判定 Pass/Fail

    • Pass(通过):指模型输出满足该维度要求;

    • Fail(未通过):指模型输出不满足该维度要求。

    二、创建步骤

    1. 在评测维度页面,点击创建评测维度,类型选择:规则评估 - 文本相似度

    2. 配置基本信息:

    • 维度名称:使用语义化命名(如 Semantic_Sim);

    3. 选择相似度算法:

    算法

    特点

    最佳场景

    ROUGE-L

    基于最长公共子序列

    文本摘要

    BLEU

    基于n-gram精确匹配,对词序敏感

    机器翻译

    Cosine

    向量空间相似度,捕捉语义

    开放问答、语义理解任务

    Fuzzy Match

    基于编辑距离,容错性强

    OCR/语音识别等需要容错类任务

    Accuracy

    完全匹配

    精确答案验证

    4. 设置通过阈值。

    5. 点击保存,完成创建。

    三、建议

    • 阈值调优:先在小样本上测试,观察通过率分布。

    • 人机结合:对边界样本进行人工复核,持续优化阈值。

  5. 选择是否参与排行若无可用排行榜,请点击创建排行榜添加。

    • 不参与:

      • 只需要评估某个指定模型的表现。

      • 需要为后续评测确定一套评测维度。

    • 参与:

      • 需要对比不同模型的表现,以选择最适合业务需求的模型。

      • 需要对比自定义模型调优前后的效果。

  6. 点击开始评测,开始执行评测任务。点击计费详情查看计费说明

  7. 点击image刷新,查看模型评测任务的最新评测状态

    评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。

    评测状态

    说明

    待执行

    在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。

    进行中

    任务执行期间无需您介入操作。在高负载时段,任务的执行时间会稍长。

    参评模型数量或评测数据越多则执行时间越长,执行时长可能从半天到数天不等

    评测完成

    表示评测任务已成功完成。点击任务名称,查看模型评测结果。

    评测失败

    表示评测任务执行失败。建议您提交工单咨询具体原因。

    评测终止

    表示评测任务已被人工手动终止。

基线评测

  1. 评测方式,此处选择基线评测

  2. 选择模型,从列表中选择参评的模型。

    基线评测专用于您调优后的模型,预置模型不支持基线评测。
    如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介
  3. 选择评测数据提供学科数学推理类的标准榜单(相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致,定期更新)。

    学科用于评测模型在日常生活常识及学科知识方面的掌握情况。
    数学用于评测模型解决基础数学问题的能力。
    推理用于评测模型的中文自然语言推理能力,例如判断两个句子之间的逻辑关系(蕴含、矛盾)。

    分类

    评测数据

    说明

    学科

    C-Eval

    C-Eval 主要用于评估模型对中文文本的理解和应用能力,它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。

    MMLU

    MMLU 主要用于评估模型在广泛领域的知识掌握情况,它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。

    ARC

    ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力,它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。

    数学

    GSM8K

    GSM8K 主要用于评估模型解决基础数学问题的能力,它包含了超过8,000个小学数学问题。

    推理

    HellaSwag

    HellaSwag 主要用于评估模型在日常生活常识推理方面的能力,它包含了超过70,000道推理测试题。

    BBH

    BBH(Big-Bench Hard)主要用于评估模型的深度复杂推理和多步推理能力,它精选了来自 BIG-Bench 的23个具有挑战性的测试题,涵盖逻辑推理、语言理解和创造性思维等领域。

  4. 点击开始评测,开始执行评测任务。点击计费详情查看计费说明

  5. 点击image刷新,查看模型评测任务的最新评测状态

    评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。

    评测状态

    说明

    待执行

    在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。

    进行中

    任务执行期间无需您介入操作。在高负载时段,任务的执行时间会稍长。

    测试项越多则执行时间越长,执行时长可能从半天到数天不等

    评测完成

    表示评测任务已成功完成。点击任务名称,查看模型评测结果。

    评测失败

    表示评测任务执行失败。建议您提交工单咨询具体原因。

    评测终止

    表示评测任务已被人工手动终止。

执行评测任务(人工评测)

重要

自动评测基线评测任务系统将会自动执行(无需人工介入),您可以跳过下方说明,直接查看模型评测结果。

在阿里云百炼的模型评测页面,当任务的评测状态进行中时,点击任务名称。

  1. 比较Completion(评测集结果)和Output(模型输出的结果)

  2. 对模型输出的结果进行评价。

    建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见
  3. 单击下一条

    如果单击跳过,在评测结果中该 Prompt 将被标记为未打标
  4. 完成所有 Prompt 的评价后,单击完成评测并提交

  5. 返回任务列表页面,若评测状态变更为评测完成,表示您已经完成了模型评测。

查看模型评测结果

在阿里云百炼的模型评测页面,当任务的评测状态评测完成时,点击该任务名称并切换到指标统计页签查看。

人工评测/自动评测

指标统计页(如下图所示),您可以:

  • 查看当前人工评测任务的综合得分评测集总量(评测集中Prompt的总数量),已完成量(已完成评价的Prompt总数量)、未完成量,以及评测进度

  • 查看综合评价(参评模型各自的评价基于不同维度的统计分布)。

基线评测

基线评分总览页,您可以查看基于先前选定标准榜单的评分结果。

通常情况下,您需要进行多次基线评测。例如通过比较模型调优前后不同版本模型之间的综合得分差异,来判定模型在各项通用能力(比如C-Eval,MMLU等)上是否有所提升或下降。

image

基线评分明细(仅C-Eval 和 MMLU 榜单支持展示)将展示不同学科和主题相关的得分明细。

image

计费说明

  • 对独立部署的模型进行评测,不再额外计费。

  • 对预置模型进行评测,则按照Token消耗量计费。

    • 评测费用 = 模型输入Token数量 × 模型输入单价 + 模型输出Token数量 × 模型输出单价。

    • 具体单价请参见模型列表

下一步

  • 如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。

  • 如果您不满意参评模型的效果,可以选择其他模型重新评测,或者继续阅读下方优化建议部分。

优化建议

  1. 模型评测的结果报告是您进一步优化模型效果的依据。您需要结合报告分析模型的输出,识别其具体不足之处。

  2. 在优化模型效果的方法中,Prompt工程插件调用的成本明显低于模型调优。您可以前往阿里云百炼的Prompt最佳实践插件学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。

  3. 如果模型输出频繁出现以下缺陷,建议您考虑引入知识库

    • 模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)。

    • 模型的输出和参考答案部分相关(模型有背景知识但已过时)。

  4. 最后您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。