基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。
本文档仅适用于中国大陆版(北京地域)。
为什么做模型评测
找出最适合业务应用的模型:从众多可用模型中作出最佳选择并非易事。模型评测能够帮助您快速对比不同模型的表现,确定最适合您的特定业务需求的模型。
检验模型调优的效果:随着您对模型进行调优和迭代,模型的能力会随之变化。模型评测能够帮助您检验这些变化,并依据评测结果调整后续的调优策略。
预防模型带来的潜在风险:通过模型评测,您可以预先发现模型可能带来的政治敏感、违法犯罪、歧视偏见等方面的风险,并采取针对性措施(如过滤、屏蔽关键词等)加以应对和规避。
支持的模型
通义千问-QwQ/Max/Plus/Turbo/Coder/Math
通义千问开源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)
通义法睿
第三方文本生成模型(abab6.5g、abab6.5t等)
上述列表并不完整且可能随时发生变化,请以创建评测任务页面中选择模型下拉框显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。
评测方式
阿里云百炼支持以下三种评测方式:人工评测、自动评测和基线评测。
人工评测:由您本人或您邀请的业务专家参与,基于选定的评测维度和评测集,对待测模型的输出效果进行人工评价。这种方式的优势在于业务专家能够通过实际操作产品等方式,来验证输出内容中的每个细节及步骤的正确性。但局限性也很明显,即评测成本较高、效率低,并且多人评测时可能会受到主观因素的干扰。
自动评测:全过程无需人工参与,阿里云百炼将基于设定的深度学习指标(包括 BLEU、ROUGE 和 F1)和评测维度,自动对模型的输出效果进行评分。这种方式的优势在于高效率以及评测的公正性。局限性在于评测效果高度依赖于初始设定的评测维度、步骤和标准,并且它无法像人工评测那样验证输出内容中每个细节和步骤的正确性。
基线评测:基于预置基线评测集(包括C-Eval/CMMLU等主流榜单评测集)对待测模型的各项基础通用能力进行自动评测,适用于对已调优模型的基本效果进行回归评测(虽然调优有可能提升模型在特定任务上的效果,但有时也会降低模型的通用能力),避免模型通用能力的下降和丢失。
通常最佳实践是将上述三种评测方式结合起来。一个可能的场景是:先通过初始的人工评测确定一套评测维度,并形成配套可自动化执行的评分步骤和标准。再将这一整套评分体系应用于自动评测中,让阿里云百炼按照设定进行自动评测,快速从多个候选模型中选出最优者。最后通过人工评测仔细对比模型输出在结构组织、伦理合规等方面的细微差异。如果针对特定领域进行了模型调优,同时希望确保模型的通用能力没有明显下降,则可以进行基线评测。
评测流程
下图展示了人工评测、自动评测和基线评测各自的完整评测流程。
阶段 | 说明 |
创建模型评测任务 |
|
执行模型评测任务 |
|
查看模型评测结果 | 模型评测结果将为您接下来数据驱动决策和潜在模型优化提供方向。 |
操作指南
创建评测任务
在百炼的模型评测页面,点击创建评测任务。
人工评测
评测方式,此处选择自定义评测。
评测模型,此处选择参评模型。系统会按照设定的System Prompt以及推理参数配置,调用参评模型基于评测数据进行在线推理并输出回答。
如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介。
关于top_p、temperature等推理参数的详细说明,请参见通义千问等相关模型的 API 参考文档。
数据来源,此处选择评测数据。本次评测任务将基于该评测集进行。若无可用评测集,请点击新增数据集添加。
评测数据集:参评模型将基于选中的评测集进行在线推理。随后,由您本人或指定评分员根据评测维度对模型输出的推理结果进行人工评分。
推理结果集:系统将直接使用您上传文件中的答案作为参评模型的推理输出(使用这种方式的模型不执行在线推理,因此可以显著降低推理成本,适合用于作为“标的”频繁参与评测的模型)。上传后同样由您本人或评分员依据人工评测维度,对这些回答进行人工评分。
在评测维度列表中,选择人工评测维度。若无可用评测维度,请点击创建评测维度添加。更多信息,请展开下方的说明:人工评分器折叠面板了解。
评测维度应围绕本次评测的目标来设计。在执行模型评测任务阶段,您本人或者您的评分员应严格按照此维度模板来对参评模型的输出效果进行评价。
选择是否参与排行。若无可用排行榜,请点击创建排行榜添加。
不参与:
只需要评估某个指定模型的表现。
需要为后续评测确定一套评测维度。
参与:
需要对比不同模型的表现,以选择最适合业务需求的模型。
需要对比模型调优前后的效果。
点击开始评测,开始执行评测任务。点击计费详情查看计费说明。
点击
刷新,查看模型评测任务的最新评测状态。评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。
评测状态
说明
待执行
在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。
进行中
需要您本人或者您的评分员对模型的输出进行评价和排序,请参见执行模型评测任务。
评测完成
表示评测任务已成功完成。点击任务名称,查看模型评测结果。
评测失败
表示评测任务执行失败。建议您提交工单咨询具体原因。
评测终止
表示评测任务已被人工手动终止。
自动评测
评测方式,此处选择自定义评测。
评测模型,此处选择参评模型。系统会按照设定的System Prompt以及推理参数配置,调用参评模型基于评测数据进行在线推理并输出回答。
如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介。
关于top_p、temperature等推理参数的详细说明,请参见通义千问等相关模型的 API 参考文档。
数据来源选择评测数据集或推理结果集。
评测数据集:模型将基于选中的评测集进行在线推理,随后系统会调用评分器对模型输出的推理结果进行评分。
推理结果集:系统将直接使用您上传文件中的答案作为模型的推理结果进行评分(使用这种方式的模型不执行在线推理,因此可以显著降低推理成本,适合用于作为“标的”频繁参与评测的模型)。
在评测维度列表中,选择自动评测维度。若无可用评测维度,请点击创建评测维度添加。更多信息,请展开下方的折叠面板了解。
阿里云百炼会调用评分器,对参评模型基于评测数据生成的输出进行自动评分,适用于评测模型在机器翻译、文本摘要及文本分类等客观类任务上的表现。
选择是否参与排行。若无可用排行榜,请点击创建排行榜添加。
不参与:
只需要评估某个指定模型的表现。
需要为后续评测确定一套评测维度。
参与:
需要对比不同模型的表现,以选择最适合业务需求的模型。
需要对比自定义模型调优前后的效果。
点击开始评测,开始执行评测任务。点击计费详情查看计费说明。
点击
刷新,查看模型评测任务的最新评测状态。评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。
评测状态
说明
待执行
在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。
进行中
任务执行期间无需您介入操作。在高负载时段,任务的执行时间会稍长。
参评模型数量或评测数据越多则执行时间越长,执行时长可能从半天到数天不等。
评测完成
表示评测任务已成功完成。点击任务名称,查看模型评测结果。
评测失败
表示评测任务执行失败。建议您提交工单咨询具体原因。
评测终止
表示评测任务已被人工手动终止。
基线评测
评测方式,此处选择基线评测。
选择模型,从列表中选择参评的模型。
基线评测专用于您调优后的模型,预置模型不支持基线评测。
如果列表中没有您调优后的模型,可能是因为该模型尚未完成部署。具体操作,请参见模型部署简介。
选择评测数据:提供学科、数学、推理类的标准榜单(相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致,定期更新)。
学科:用于评测模型在日常生活常识及学科知识方面的掌握情况。
数学:用于评测模型解决基础数学问题的能力。
推理:用于评测模型的中文自然语言推理能力,例如判断两个句子之间的逻辑关系(蕴含、矛盾)。
分类
评测数据
说明
学科
C-Eval
C-Eval 主要用于评估模型对中文文本的理解和应用能力,它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。
MMLU
MMLU 主要用于评估模型在广泛领域的知识掌握情况,它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。
ARC
ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力,它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。
数学
GSM8K
GSM8K 主要用于评估模型解决基础数学问题的能力,它包含了超过8,000个小学数学问题。
推理
HellaSwag
HellaSwag 主要用于评估模型在日常生活常识推理方面的能力,它包含了超过70,000道推理测试题。
BBH
BBH(Big-Bench Hard)主要用于评估模型的深度复杂推理和多步推理能力,它精选了来自 BIG-Bench 的23个具有挑战性的测试题,涵盖逻辑推理、语言理解和创造性思维等领域。
点击开始评测,开始执行评测任务。点击计费详情查看计费说明。
点击
刷新,查看模型评测任务的最新评测状态。评测状态为进行中时,点击操作列的终止可停止评测任务。任务终止后不能再重启。
评测状态
说明
待执行
在请求高峰时段,评测任务需要排队等待执行,期间无需您介入操作。
进行中
任务执行期间无需您介入操作。在高负载时段,任务的执行时间会稍长。
测试项越多则执行时间越长,执行时长可能从半天到数天不等。
评测完成
表示评测任务已成功完成。点击任务名称,查看模型评测结果。
评测失败
表示评测任务执行失败。建议您提交工单咨询具体原因。
评测终止
表示评测任务已被人工手动终止。
执行评测任务(人工评测)
自动评测和基线评测任务系统将会自动执行(无需人工介入),您可以跳过下方说明,直接查看模型评测结果。
在阿里云百炼的模型评测页面,当任务的评测状态变为进行中时,点击任务名称。
比较Completion(评测集结果)和Output(模型输出的结果)。
对模型输出的结果进行评价。
建议您委托业务专家对模型输出结果进行评估,因为他们能从业务视角出发,提供比单纯技术角度更具价值的反馈意见。
单击下一条。
如果单击跳过,在评测结果中该 Prompt 将被标记为未打标。
完成所有 Prompt 的评价后,单击完成评测并提交。
返回任务列表页面,若评测状态变更为评测完成,表示您已经完成了模型评测。
查看模型评测结果
在阿里云百炼的模型评测页面,当任务的评测状态为评测完成时,点击该任务名称并切换到指标统计页签查看。
人工评测/自动评测
在指标统计页(如下图所示),您可以:
查看当前人工评测任务的综合得分、评测集总量(评测集中Prompt的总数量),已完成量(已完成评价的Prompt总数量)、未完成量,以及评测进度。
查看综合评价(参评模型各自的评价基于不同维度的统计分布)。
基线评测
在基线评分总览页,您可以查看基于先前选定标准榜单的评分结果。
通常情况下,您需要进行多次基线评测。例如通过比较模型调优前后不同版本模型之间的综合得分差异,来判定模型在各项通用能力(比如C-Eval,MMLU等)上是否有所提升或下降。

基线评分明细(仅C-Eval 和 MMLU 榜单支持展示)将展示不同学科和主题相关的得分明细。

计费说明
对独立部署的模型进行评测,不再额外计费。
对预置模型进行评测,则按照Token消耗量计费。
评测费用 = 模型输入Token数量 × 模型输入单价 + 模型输出Token数量 × 模型输出单价。
具体单价请参见模型列表。
下一步
如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。
如果您不满意参评模型的效果,可以选择其他模型重新评测,或者继续阅读下方优化建议部分。
优化建议
模型评测的结果报告是您进一步优化模型效果的依据。您需要结合报告分析模型的输出,识别其具体不足之处。
在优化模型效果的方法中,Prompt工程和插件调用的成本明显低于模型调优。您可以前往阿里云百炼的Prompt最佳实践和插件学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。
如果模型输出频繁出现以下缺陷,建议您考虑引入知识库。
模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)。
模型的输出和参考答案部分相关(模型有背景知识但已过时)。
最后您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。