模型评测-大模型服务平台百炼(Model Studio)-阿里云帮助中心

模型评测是百炼平台提供的模型能力评估功能，支持自定义评测和基线评测两种方式，帮助您通过评测维度对模型推理结果进行打分和对比，选择最优模型或验证调优效果。

模型评测概述

模型评测是百炼平台提供的模型能力评估功能，支持自定义评测和基线评测两种方式，通过评测维度对模型推理结果进行打分和对比，生成评测报告和排行榜。您可以使用预置模型或调优后的模型作为评测对象，量化模型表现并辅助选型决策。当前仅支持文本生成类模型评测。更多功能介绍请参见模型评测产品概览。

使用场景

模型选型对比：使用相同的评测数据集和维度评测多个候选模型，通过排行榜横向对比综合得分和通过率，用数据驱动选型决策。
调优效果验证：对模型调优前后分别执行评测，对比评分变化，量化调优带来的能力提升。调优操作请参见模型调优。
能力量化评估：生成包含综合得分、通过率和分数分布的评测报告，为团队协作和管理层汇报提供客观数据支撑。
持续质量监控：建立定期评测机制，使用相同评测条件追踪模型表现趋势，及时发现模型能力下降。

自定义评测与基线评测

自定义评测使用您的数据集和自定义维度进行评测，支持以下三种评分方式：

大模型评估（AI 自动评测）：由裁判模型（如千问-Max）对被评测模型的回答进行评分。数值型维度输出评分区间内的整数分，分类型维度输出 Pass/Fail 标签。适用于问答质量、内容安全等需要语义理解的场景。
规则评估（自动化指标）：使用算法直接计算评分，无需裁判模型。字符串匹配判断输出是否与参考答案精确匹配，文本相似度使用 ROUGE、BLEU、Cosine 等算法计算。适用于翻译、摘要、Function Calling 等有确定性标准的场景。
人工评估（人工标注）：由人工逐条查看模型推理结果并标注 Pass/Fail 标签。适用于创意性写作、专业领域判断等机器难以准确评价的场景。

基线评测使用公开标准数据集快速评测模型基础能力，仅北京地域可用，详见创建基线评测任务。两种评测方式的对比如下：

对比项	自定义评测	基线评测
数据来源	用户数据集或推理结果集	公开标准数据集（平台预设）
评测维度	自定义创建	系统预设（不可配置）
评分方式	AI 评测 / 规则评估 / 人工标注	系统自动评分
结果下载	支持	不支持
可用范围	全地域	仅北京地域

评测流程与核心术语

评测的端到端流程分为四个阶段：准备数据集（在数据管理模块上传评测集类型的数据）→ 创建评测维度（定义评分标准和方式）→ 创建评测任务（选择模型、关联数据集和维度）→ 查看结果（分析得分报告，可选加入排行榜对比）。

使用前需区分两个核心概念：评分器 Prompt 配置于评测维度，指导裁判模型如何给被评测模型的回答打分。System Prompt 配置于评测任务，为被评测模型设定角色定位或行为规范，通常可留空。两者作用对象和费用归属不同。

快速入门

本节以最短路径引导您完成第一次模型评测。每步给出控制台导航路径和关键表单字段的最小配置，完成以下四步后，您将获得一份包含综合得分和通过率的评测报告。

前提条件

已开通阿里云百炼账号，可通过百炼控制台访问模型评测功能。
已准备评测数据集：在数据管理模块上传评测集（EvaluationSet）类型的数据，包含 Prompt（用户问题）和 Completion（参考答案）两列。

操作步骤

创建评测维度：在控制台左侧导航栏选择模型评测，切换到评测维度 Tab，单击创建评测维度。最小配置：维度类型选择大模型评估-数值型，裁判模型选择千问-Max，评分器模板选择综合评测，评分范围保持 0-5，通过阈值设为 3.0。详细配置请参见创建评测维度。
创建评测任务：切换到评测任务 Tab，单击创建评测任务，评测方式选自定义。最小配置：选择被评测模型，数据来源选择评测数据集并指定已上传的数据集，关联上一步创建的维度，排行参与保持关闭。确认后单击开始评测。详细配置请参见创建自定义评测任务。
等待评测完成：提交后任务进入待执行状态，随后自动转为进行中。评测耗时取决于数据量和模型推理速度，50 条数据通常在数分钟内完成。
查看评测结果：任务完成后，单击任务名称打开详情页。在指标统计 Tab 查看综合得分和通过率，在数据明细 Tab 查看每条数据的逐项评分。详细解读请参见查看评测结果。

创建评测维度

评测维度定义了模型如何被评分的标准。使用前须先创建至少一个评测维度。百炼支持 5 种评测维度类型，请根据业务场景选择合适的类型。

维度类型创建后不可修改。选错类型需删除维度重新创建，已关联该维度的评测任务不受影响。

根据您的业务场景，选择合适的维度类型：

维度类型	评分方式	适用场景	裁判模型费用
大模型评估-数值型	裁判模型打分（整数，如 0-5）	问答质量、内容生成	有
大模型评估-分类型	裁判模型标签（Pass/Fail）	内容安全、正确性判断	有
规则评估-文本相似度	ROUGE/BLEU/Cosine 等算法	翻译、摘要	无
规则评估-字符串匹配	相等/不相等/包含	Function Calling、NL2SQL	无
人工评估-分类型	人工标注 Pass/Fail	创意性写作、专业判断	无

在百炼控制台的模型评测页面，选择评测维度 Tab，单击创建评测维度。各维度类型的完整配置详解也可参见评测维度。

大模型评估

数值型维度：选择裁判模型（推荐千问-Max，推理能力强），选择评分器模板（综合评测适用通用对话、语义相似度适用知识问答、自定义评测适用特定业务），设置评分范围（默认 0-5 整数），设置通过阈值（默认 3.0，步长 0.1，评分达到此值判定为 Pass）。

分类型维度：选择裁判模型，选择评分器模板（标准匹配判断输出与参考答案是否一致、情感分析识别积极/中性/消极情感、自定义评分器适用自定义场景），设置 Pass 标签和 Fail 标签。两组标签不能有重复项，有重复会阻止提交。

规则评估

文本相似度维度：选择相似度算法。支持 7 种算法：ROUGE-1、ROUGE-2、ROUGE-L（适用文本摘要）、BLEU（适用翻译）、Cosine（适用语义理解和开放问答）、Fuzzy Match（适用 OCR 和语音识别）、Accuracy（适用精确匹配场景）。

字符串匹配维度：选择匹配规则，支持相等、不相等、包含三种方式。Function Calling 验证场景通常选择包含，固定答案场景选择相等。

人工评估与 Prompt 变量

人工评估-分类型维度：设置 Pass 标签和 Fail 标签。人工评估不涉及裁判模型，由人工逐条标注。标签设计应简洁明确，覆盖所有可能的评判结果。

大模型评估维度在自定义评分器 Prompt 时，可使用以下变量：${prompt}（用户问题）、${output}（模型回答）、${completion}（参考答案）。自定义 Prompt 须至少包含一个变量，否则系统将阻止提交。

维度名称最长 20 字符，描述最长 100 字符。

创建自定义评测任务

创建评测任务前，请确认已创建至少一个评测维度，并已在数据管理模块上传评测数据集。在百炼控制台的模型评测页面，选择评测任务 Tab，单击创建评测任务，选择自定义评测。

选择评测模型

从控制台模型列表中选择要评测的目标模型。支持预置模型和调优后的模型，具体支持的模型请参见预置模型列表。

配置数据来源

数据来源支持两种方式：

评测数据集：包含 Prompt（用户问题）和 Completion（参考答案），系统调用被评测模型推理生成 Output 后再评分，会产生推理费用。须为评测集（EvaluationSet）类型且已发布版本，在数据管理模块提前上传。
推理结果集：已包含模型 Output，系统直接评分不调用模型推理，不产生推理费用。适用于已有模型输出想降低成本的场景。

对比项	评测数据集	推理结果集
数据内容	包含 Prompt 和 Completion	已包含模型 Output
推理调用	系统调用被评测模型推理	不调用模型推理
推理费用	产生	不产生
适用场景	首次评测、标准流程	已有模型输出，降低成本
数据要求	评测集类型且已发布版本	按模板上传文件

数据量建议：小规模验证 50-100 条，正式评测 200-500 条，全面评估 500 条以上。

关联维度与排行设置

从已创建的评测维度中多选要关联的维度，须提前在评测维度页面创建。

推理参数（Temperature、TopP、System Prompt 等）按所选模型动态加载。System Prompt 为被评测模型设定角色定位，大多数场景可留空。

是否参与排行开关默认关闭。开启后须选择一个排行榜，评测结果将加入排行参与排名。排行榜绑定维度为空时系统将阻止提交并显示错误提示。

清空评测维度时系统会自动清空排行榜选择。任务名称最长 50 字符。配置完成后，单击开始评测提交任务。

创建基线评测任务

基线评测使用公开标准数据集自动评测模型基础能力，无需您自行准备数据集或配置评测维度，快速获得基准分数。

基线评测仅北京地域可用。其他地域不显示此选项，属正常现象。

创建流程

在百炼控制台，选择评测任务 Tab，单击创建评测任务。
评测方式选择基线评测。
选择要评测的目标模型。
选择基线评测数据集。公开数据集分为学科类（C-Eval、MMLU、ARC）、数学类（GSM8K）和推理类（BBH、HellaSwag），按评测需求选择。
单击开始评测提交任务。

与自定义评测的区别

基线评测不使用自定义评测维度，系统使用预设标准自动评分。
基线评测不支持推理结果集数据来源，仅使用平台预设的公开数据集。
基线评测任务不可下载评测结果。
基线评测任务在任务列表中不显示综合得分和维度详情列（显示短横线）。
基线评测任务不可进入人工标注页面。

查看评测结果

评测任务提交后，可在评测任务列表中查看任务状态和评测结果。

任务状态

评测任务的状态按以下顺序流转：待执行 → 进行中 → 评测完成/评测失败/评测终止。

状态	说明	可执行操作
待执行	任务已提交，等待系统调度	终止
进行中	正在执行评测	终止
评测完成	所有数据评测完毕	下载、删除、重命名
评测失败	数据格式问题或模型不可用	删除
评测终止	手动终止，已评测部分保留	下载、删除

数据明细与指标统计

任务状态变为评测完成后，单击任务名称进入详情页，包含以下两个 Tab：

数据明细 Tab：逐样本展示评测结果，每条数据包含 Prompt（用户问题）、模型 Output（模型回答）、参考 Completion（参考答案）以及各评测维度的评分。

指标统计 Tab：展示评测的汇总指标，包括综合得分（各维度的平均分）、通过率（评分达到通过阈值的样本占比）以及分数分布图。

评测结果支持下载，便于离线分析和归档。待执行状态和基线评测任务不支持下载。

结果分析建议

分析评测结果时，建议关注分数分布而非仅看综合得分。综合得分是各维度的平均分，可能掩盖维度间的显著差异。例如综合得分 85 分可能是某些维度 95 分与某些维度 75 分的均值，需要逐维度分析才能发现短板。

1-3% 的分数差异通常为评测噪声而非模型能力差异，不建议仅凭微小分差做决策。使用人工评估维度的任务须全部数据标注完成后才变为评测完成状态，详细流程请参见人工标注评测。

排行榜

排行榜用于在相同评测维度下对比多个模型的评测表现，帮助您直观判断各模型的优劣排序。

创建排行榜

在百炼控制台的模型评测页面，选择排行榜 Tab，单击创建排行榜。填写排行榜名称（最长 50 字符），选择评测维度（必填，创建后不可修改，选错需删除重建），可选关联已有的评测任务（须使用相同评测维度的已完成任务）。已绑定到该排行榜的任务不可重复添加。

排行得分与使用

排行榜得分范围为 0-100，基于关联评测维度的综合评分计算，与评测维度本身的评分范围（如 0-5）不同。排行榜前三名以色标区分：第 1 名金色、第 2 名银色、第 3 名铜色。

在排行榜详情页可直接创建评测任务。从排行榜入口进入时，评测维度和排行榜字段自动锁定，确保新任务与排行榜使用相同的评分标准。

为确保模型对比的公平性，建议排行榜内所有评测任务使用相同的评测数据集。

人工标注评测

人工标注评测适用于需要人工判断的场景，如创意性写作、专业性内容评审等。使用人工评估-分类型维度创建的评测任务，需要人工逐条为模型推理结果标注 Pass/Fail 标签。基线评测任务不可进入人工标注页面。

标注流程

在评测任务列表中，找到使用人工评估维度的评测任务，单击任务名称打开详情。
在评测数据页面，逐条查看模型推理结果。每条数据展示 Prompt（用户问题）和模型 Output（模型回答）。
根据评测标准为每条数据选择对应的标签（Pass 或 Fail 类别下的具体标签）。支持跳过当前数据，稍后再标注。
使用上一题、下一题按钮在数据间翻页，直至所有数据标注完成。

标注进度与任务状态

全部数据标注完成后，任务状态自动变为评测完成。标注完成前，任务始终处于进行中状态。

与自动评测相比，人工评估无裁判模型评分费用，但需要人力投入且耗时更长。标签设计的详细说明请参见创建评测维度。

管理评测任务和维度

在百炼控制台的模型评测页面，您可以对评测任务、评测维度和排行榜进行日常管理。

各管理操作的可逆性和影响范围如下表所示。执行不可逆操作前请确认影响。

操作	可逆性	影响说明
终止任务	不可逆	已评测数据保留，无法恢复继续
删除任务	不可逆	任务及结果永久删除
重命名	可逆	仅影响显示名称
从排行榜移除任务	可逆	可重新添加
删除排行榜	不可逆	不影响已关联的评测任务
删除评测维度	不可逆	排行榜绑定维度为空将阻止新任务

评测任务管理

终止任务：仅进行中状态可用，操作不可逆。终止后已评测的部分数据保留但无法恢复继续，排行榜中该任务的得分列显示短横线。
删除任务：仅评测完成、评测终止、评测失败三种终态可用，操作不可逆。任务及其评测结果永久删除，已关联排行榜的任务需先从排行榜移除。
重命名：仅影响显示名称，不影响评测结果。
下载结果：下载评测结果数据文件。待执行状态和基线评测任务不支持下载。
筛选和搜索：支持按任务名称搜索、按状态筛选、按创建时间排序。

评测维度管理

删除评测维度操作不可逆。已被排行榜绑定的维度删除后，排行榜绑定维度为空，会阻止在该排行榜下创建新评测任务。删除维度前请确认是否有排行榜在使用。

排行榜管理

删除排行榜不影响已关联的评测任务和评测结果。从排行榜移除任务是可逆操作，移除后可重新添加。

计费说明

模型评测的费用由两部分构成：被评测模型的推理费用和裁判模型的评分费用。具体模型单价请参见预置模型列表中的定价说明。

不同维度类型的费用构成如下：

维度类型	被评测模型推理费	裁判模型评分费
大模型评估（数值型/分类型）	按 Token 计费	按 Token 计费
规则评估（字符串匹配/文本相似度）	按 Token 计费	无
人工评估（分类型）	按 Token 计费	无
使用推理结果集时	无（不调用模型推理）	按维度类型决定

被评测模型推理费用

使用评测数据集作为数据来源时，系统调用被评测模型进行推理，按 Token 消耗量计费。计算公式：输入 Token 数 / 1M x 输入单价 + 输出 Token 数 / 1M x 输出单价。

已部署的调优模型评测不额外计费，推理费用已包含在部署算力费用中。

使用推理结果集作为数据来源时无需执行模型推理，不产生被评测模型推理费用。

基线评测计费与自定义评测相同，按推理 Token 消耗计费。

裁判模型评分费用

仅大模型评估维度（数值型和分类型）涉及裁判模型评分费用，按 Token 消耗计费。规则评估（字符串匹配和文本相似度）和人工评估不使用裁判模型，无评分费用。

由于模型推理输出长度不确定，系统无法在评测前预估总费用，以实际发生为准。

成本优化策略

先小规模验证：使用 50-100 条数据验证配置正确性和评分质量，确认无误后再扩大数据规模，避免配置错误导致的无效消耗。
保存推理结果集复用：首次评测后下载包含模型 Output 的结果，后续评测使用推理结果集方式，避免重复推理产生费用。
优先选规则评估：规则评估无裁判模型费用，是成本最低的评测方式。翻译、摘要、Function Calling 等有确定性标准的场景优先使用。

常见问题

问题：提交评测任务后状态显示失败。

请依次检查：数据集必须为评测集（EvaluationSet）类型并已发布版本（训练集不可用于评测），模型是否可选（灰色表示暂不支持），数据格式是否正确（须包含 Prompt 和 Completion 列）。

问题：评测完成但评分结果不符合预期，分数集中在某个分数段或区分度低。

首先检查评分器 Prompt 是否有明确的评分标准和正确的变量引用。模糊的评分标准会导致裁判模型评分集中在某个分数段。建议为每个分数档提供清晰的判定条件描述。

其次确认裁判模型的推理能力是否足够（推荐千问-Max）。LLM 评分器存在位置偏差和自我偏好偏差，建议定期人工抽查校准。优化评分器 Prompt 可参考Prompt 最佳实践。

问题：创建评测维度时选错了维度类型，想修改但找不到入口。

维度类型一经创建不可修改。处理方式：删除该维度后重建。已有任务引用不受影响。

问题：创建评测任务时选错了被评测模型，想更换模型。

任务一旦提交不可更换目标模型。处理方式：删除任务后重建。已消耗的 Token 费用不可追回。

问题：配置评测维度时，评分范围和通过阈值容易混淆。

评分范围定义裁判模型的打分区间（整数，如 0-5），决定评分粒度。通过阈值是判定 Pass/Fail 的分界线（支持小数，步长 0.1，如 3.0），用于统计通过率。两者独立配置：前者决定"模型能得几分"，后者决定"几分算及格"。

问题：创建评测任务时看不到基线评测选项。

基线评测仅限北京地域使用。如果您在其他地域，评测方式只显示自定义评测，这是预期行为。

问题：想通过 API 或 SDK 自动化评测流程。

模型评测当前仅支持控制台操作，不提供公开 API/SDK。如需编程化评测能力，可参考 PAI Judge Model API 作为替代方案。

问题：评测发现模型在特定场景表现不足。

可对模型进行调优后重新评测验证效果（请参见模型调优）。如果模型缺失特定领域知识，可引入知识库增强模型能力（请参见知识库）。