模型评测_大模型服务平台百炼(Model Studio)-阿里云帮助中心

基于数据集对模型进行多维度评测有助于您全面了解其表现，从而确保模型在未来实际应用中能够提供有效的结果。

重要

本文档仅适用于中国大陆版（北京地域）。

为什么做模型评测

找出最适合业务应用的模型：从众多可用模型中作出最佳选择并非易事。模型评测能够帮助您快速对比不同模型的表现，确定最适合您的特定业务需求的模型。
检验模型调优的效果：随着您对模型进行调优和迭代，模型的能力会随之变化。模型评测能够帮助您检验这些变化，并依据评测结果调整后续的调优策略。
预防模型带来的潜在风险：通过模型评测，您可以预先发现模型可能带来的政治敏感、违法犯罪、歧视偏见等方面的风险，并采取针对性措施（如过滤、屏蔽关键词等）加以应对和规避。

支持的模型

模型评测支持下列预置模型（包括基于它们调优后的自定义模型）：

通义千问-Max/Plus/Turbo/Coder/Math
通义千问开源版（QwQ、Qwen2.5、Qwen2、Qwen1.5）
通义法睿
第三方文本生成模型（ChatGLM3、Llama3、Yi-Medium等）

上述列表并不完整且可能随时发生变化，请以创建评测任务页面中选择模型下拉框显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。

评测方式

阿里云百炼支持以下三种评测方式：人工评测、自动评测和基线评测。

人工评测：由您本人或您邀请的业务专家参与，基于选定的评测维度和评测集，对待测模型的输出效果进行人工评价。这种方式的优势在于业务专家能够通过实际操作产品等方式，来验证输出内容中的每个细节及步骤的正确性。但局限性也很明显，即评测成本较高、效率低，并且多人评测时可能会受到主观因素的干扰。
自动评测：全过程无需人工参与，阿里云百炼将基于内置的深度学习指标（包括BLEU、ROUGE和F1）和AI评测器，自动对模型的输出效果进行评分。这种方式的优势在于高效率以及评测的公正性。局限性在于AI评测器的评测效果高度依赖于人为初始设定的评分维度、步骤和标准，并且它无法像人工评测那样验证输出内容中每个细节和步骤的正确性。
基线评测：基于预置基线评测集（包括C-Eval/CMMLU等主流榜单评测集）对待测模型的各项基础通用能力进行自动评测，适用于对已调优模型的基本效果进行回归评测（虽然调优有可能提升模型在特定任务上的效果，但有时也会降低模型的通用能力），避免模型通用能力的下降和丢失。

通常最佳实践是将上述三种评测方式结合起来。一个可能的场景是：先通过初始的人工评测确定一套评测维度，并形成配套可自动化执行的评分步骤和标准。再将这一整套评分体系应用于自动评测中，让阿里云百炼按照设定进行自动评测，快速从多个候选模型中选出最优者。最后通过人工评测仔细对比模型输出在结构组织、伦理合规等方面的细微差异。如果针对特定领域进行了模型调优，同时希望确保模型的通用能力没有明显下降，则可以进行基线评测。

模型评测流程

下图展示了人工评测、自动评测和基线评测各自的完整评测流程。

阶段	说明
创建模型评测任务	创建人工评测任务时，您本人或您的评分员需要根据本次的评测目标设定好评测维度（后续用于对模型的输出效果进行评价）。创建人工评测任务和自动评测任务时，均需要用到评测集（后续用于验证模型的泛化能力，即模型在未见过的数据上的表现如何）。基线评测任务是采用内置的主流榜单评测集对模型各项能力（比如学科能力、推理能力等）进行评测，因此无需额外准备维度和评测集。
执行模型评测任务	采用人工评测时，本阶段需要您本人或者您的评分员，基于创建模型评测任务阶段选定的评测维度，对模型的输出效果进行人工评价。在自动评测和基线评测任务中，本阶段为系统自动执行，无需人工介入。
查看模型评测结果	模型评测结果将为您接下来数据驱动决策和潜在模型优化提供方向。

模型评测计费说明

对独立部署的模型进行评测，不再额外计费。
对预置模型进行评测，则按照Token消耗量计费。
- 评测费用 = 模型输入Tokens × 模型输入单价 + 模型输出Tokens × 模型输出单价。
- 具体单价请参见模型列表与价格。

开始进行模型评测

创建模型评测任务