模型评测-大模型服务平台百炼(Model Studio)-阿里云帮助中心

快速开始

什么是模型评测

模型评测是百炼平台提供的模型质量验证工具，帮助您客观、量化地评估大语言模型的表现。

一句话总结：给模型出一套测试题，自动或人工打分，最后生成评测报告。

为什么要做模型评测

场景1：模型选型决策

问题：面对十几个大模型（千问、GPT、Claude、文心一言等），不知道哪个更适合我的业务。

解决方案：

准备100条业务场景的测试数据
用相同数据评测所有候选模型
对比评测报告（得分、通过率、典型样本表现）
选择最符合业务需求的模型

价值：

避免主观判断，用数据说话
节省人工逐个测试的时间
降低选型错误的风险

场景2：模型调优效果验证

问题：对千问进行了模型调优（提供了1000条训练数据），不确定调优是否真的有效。

解决方案：

准备评测数据集（与训练集不重叠）
分别评测调优前和调优后的模型
对比两次评测结果：
- 调优前得分：75分
- 调优后得分：85分
- 结论：调优有效，提升了10分

价值：

量化调优效果，验证投入是否值得
识别调优方向是否正确
为持续优化提供数据支持

场景3：模型能力量化评估

问题：需要向团队或管理层汇报模型在特定任务上的表现，但缺少客观数据。

解决方案：

使用评测功能生成评测报告
报告包含：
- 综合得分：85/100
- 通过率：90%（达到3分阈值的样本占比）
- 分数分布：5分30条、4分40条、3分20条、2分10条
- 典型案例：高分样本、低分样本
用报告数据支撑决策和汇报

价值：

用数据替代主观描述（"还不错" → "得分85分，通过率90%"）
便于跨团队沟通和对齐认知
为后续优化提供基线参考

场景4：持续监控模型表现

问题：模型上线后，随着时间推移或业务变化，模型表现可能下降，但很难及时发现。

解决方案：

建立定期评测机制（如每月一次）
使用相同的评测数据集和评测维度
追踪模型表现趋势：
- 2024年1月：得分85
- 2024年2月：得分87（提升）
- 2024年3月：得分78（下降，需要排查）

价值：

及时发现模型表现下降
为模型迭代提供数据依据
建立模型能力档案

核心价值总结

价值	说明
客观量化	用数据替代主观判断，避免“感觉还行”的模糊描述
高效对比	快速对比多个模型，节省人工测试时间
风险控制	上线前充分验证，降低模型选型错误的风险
持续优化	为模型调优和迭代提供量化的效果反馈
决策支持	为团队协作和管理层汇报提供数据支撑

一图看懂评测流程

快速体验

评测场景：评测千问-Max在常识问答任务中的准确性

完整案例：使用10条测试问题，评估模型回答的语义相似度

体验步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	常识问答准确性
描述	评估模型回答常识问题的准确性
类型	选择大模型评估-数值型
裁判模型	选择千问-Max
评分器模板	选择语义相似度
评分范围	保持默认0~5
通过阈值	3.0

相关说明：

关于评分器模板的选择，界面上有3个单选按钮，可以选择其中一个（Prompt变量说明参见核心变量，和System Prompt的区别请参见System Prompt和评分器Prompt的区别）

模板	说明	适用场景	是否需要自定义Prompt
综合评测（默认）	系统预置模板，从5个维度评分（相关性、文化敏感性、信息丰富性、清晰性、用户参与度）	通用对话、客服场景	不需要，可以直接使用该Prompt或对其进行改写
语义相似度	系统预置模板，评估输出与参考答案的语义接近程度	问答系统、知识检索	不需要，可以直接使用该Prompt或对其进行改写
自定义评分器	自己编写Prompt	特定业务场景	需要，根据实际情况进行编写

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	问答测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_问答测试数据.xlsx

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	问答准确性测试
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“问答测试数据”
评测维度	选择前面创建的“常识问答准确性”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“问答准确性测试”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页。

选择数据明细Tab，查看每条数据详细评分

列名	说明
状态	评测状态：待执行、进行中、评测完成、评测失败、评测终止
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“常识问答准确性”，本列表示评分结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	100
通过率	达到阈值（≥3分）的样本占比	90%
评测集总量	测试数据总数	10条
已完成量	已评测完成的数量	10条
未完成量	未评测完成的数量	0条

核心概念

自定义评测和基线评测对比

对比维度	自定义评测	基线评测
适用场景	业务场景评测、自定义标准	模型通用能力验证（学科、数学、推理）
评测标准	自定义评测维度（5种类型）	使用预置评测规则
是否需要创建评测维度	必须创建	不需要
数据来源	参见自定义评测-评测数据评测数据集（自己准备）推理结果集（自己准备）	预置标准数据集（系统提供），参见基线评测-评测数据
数据格式	Excel（2~3列：Prompt、Completion、Output）	无需准备，直接选择
灵活性	高，可自定义一切	低，使用行业标准
评测流程

如何选择：

首次使用 / 业务场景评测：自定义评测（更灵活）
调优后验证通用能力：基线评测（快速对比）
最佳实践：两者结合使用

自定义评测

支持的模型

支持下列预置模型（包括基于它们调优后的模型）：

千问-QwQ/Max/Plus/Turbo/Coder/Math
千问开源版（Qwen3、Qwen2.5、Qwen2、Qwen1.5）
通义法睿
第三方文本生成模型（abab6.5g、abab6.5t等）

上述列表并不完整且可能随时发生变化，请以创建评测任务页面中评测模型显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。

评测维度

评测维度就是评分标准，决定了如何给模型打分。自定义评测必须先创建评测维度。

评测维度类型（5种）

类型	评分方式	适用场景	成本	推荐度
大模型评估-数值型	AI裁判打分（1-5分）	问答质量、内容生成质量	中	⭐⭐⭐⭐⭐
规则评估-文本相似度	算法计算相似度	翻译、摘要、改写	低	⭐⭐⭐⭐
大模型评估-分类型	AI裁判分类（Pass/Fail）	内容安全、正确性判断	中	⭐⭐⭐
规则评估-字符串匹配	精确字符串匹配	Function Calling、NL2SQL	极低	⭐⭐⭐
人工评估-分类型	人工打标签	创意性、专业判断	高	⭐⭐

如何快速选择评测维度类型？

一个评测任务可以组合多个评测维度。

评测数据

数据来源类型

数据类型	说明	工作流程	适用场景
评测数据集	包含问题（prompt）和参考答案（completion）	系统调用模型实时推理 → 生成output → 评分器打分	首次评测对比多个模型模型尚未生成结果
推理结果集	已包含模型输出（output）	系统直接读取output → 评分器打分（不推理）	模型已生成结果降低推理成本作为对照组的基准模型

数据格式要求：Excel

评测数据集示例：

Prompt	Completion
什么是云计算？	云计算是按需提供的共享计算资源池
Python如何定义函数？	使用def关键字定义函数

推理结果集示例：

多一列Output

Prompt	Completion	Output
什么是云计算？	云计算是按需提供的共享计算资源池	云计算是一种通过互联网提供计算资源的服务模式...

数据量建议：

阶段	建议数量	说明
小规模验证	50~100条	验证配置是否正确
正式评测	200~500条	获得可靠的统计结果
全面评估	500+条	覆盖各种边界情况

排行榜

什么是排行榜：

用于对比多个模型在同一评测维度上的表现
可视化展示模型优劣排序
支持多个评测任务的横向对比

何时需要排行榜：

需要对比多个模型的表现（如 GPT-4 vs Claude vs 千问）
想要可视化展示模型在业务场景中的优劣
需要在团队内部分享模型对比结果

核心变量

适用范围：本节仅适用于大模型评估-数值型和大模型评估-分类型评测维度。

在大模型评估时，裁判模型会接收以下三个变量：

变量名	说明	示例	使用场景
`${prompt}`	原始输入：用户的问题或指令	什么是云计算？	所有场景都需要
`${output}`	模型输出：参评模型生成的回答	云计算是一种通过互联网...	所有场景都需要
`${completion}`	参考答案：标准答案或期望输出	云计算是按需提供的...	有标准答案时使用

如何在Prompt中使用：

请评估以下回答的质量：

**用户问题**：${prompt}
**模型回答**：${output}
**参考答案**：${completion}

评分标准：
- 5分：回答完全正确，与参考答案语义一致
- 4分：回答基本正确，有少量偏差
- 3分：回答部分正确
- 2分：回答大部分错误
- 1分：回答完全错误或答非所问

基线评测

支持的模型

基线评测仅支持调优后的模型，不支持预置模型（如千问-Max）。

为什么只支持调优模型：

基线评测使用行业标准数据集（如 C-Eval、MMLU）评估模型能力
主要用于验证模型调优后的效果提升
可与业界其他模型对比

如何确认你的模型是否支持：

进入创建评测任务页面
选择“基线评测”
查看“选择模型”下拉列表
如果列表为空，说明你还没有调优模型，需要先完成模型调优和部署（请参见模型部署简介）

评测数据

基线评测无需准备评测数据，直接选择系统提供的数据：学科、数学或推理类的标准榜单（相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致，定期更新）。

学科：用于评测模型在日常生活常识及学科知识方面的掌握情况。

数学：用于评测模型解决基础数学问题的能力。

推理：用于评测模型的中文自然语言推理能力，例如判断两个句子之间的逻辑关系（蕴含、矛盾）。

分类	评测数据	说明
学科	C-Eval	C-Eval 主要用于评估模型对中文文本的理解和应用能力，它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。
	MMLU	MMLU 主要用于评估模型在广泛领域的知识掌握情况，它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。
	ARC	ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力，它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。
数学	GSM8K	GSM8K 主要用于评估模型解决基础数学问题的能力，它包含了超过8,000个小学数学问题。
推理	HellaSwag	HellaSwag 主要用于评估模型在日常生活常识推理方面的能力，它包含了超过70,000道推理测试题。
推理	BBH	BBH（Big-Bench Hard）主要用于评估模型的深度复杂推理和多步推理能力，它精选了来自 BIG-Bench 的23个具有挑战性的测试题，涵盖逻辑推理、语言理解和创造性思维等领域。

基线评测特有的报告内容

基线评测的结果报告与自定义评测不同，提供以下特有内容：

分学科得分明细（C-Eval 和 MMLU）

可以查看模型在每个学科的得分，例如：
- 计算机科学：85%
- 法律：72%
- 医学：68%
- 数学：90%
能力雷达图

可视化展示模型在不同维度的能力：
- 知识掌握
- 推理能力
- 数学能力
- 常识理解
行业对比

将你的模型与业界标准模型对比：
- GPT-4：XX分
- 你的模型：XX分
- Claude：XX分

System Prompt和评分器Prompt的区别

在模型评测中，有两种容易混淆的Prompt配置，它们在不同环节发挥作用：

Prompt类型	配置位置	作用对象	作用阶段	是否必填	费用归属
System Prompt	创建评测任务时	被评测模型	模型生成答案时	否	被评测模型推理费用
评分器Prompt	创建大模型评估-数值型和大模型评估-分类型评测维度时	裁判模型	裁判模型给答案打分时	是	裁判模型评分费用

详细说明

System Prompt
- 用途：为被评测模型设定角色定位或行为规范
- 示例场景：
  - 评测客服场景：“你是一位专业的客服人员，请礼貌、准确地回答客户问题。”
  - 评测代码助手：“你是一位编程专家，请提供准确、简洁的代码示例。”
- 何时使用：仅在需要给被评测模型设定特定身份或约束时填写，大多数情况下可以留空
评分器Prompt
- 用途：告诉裁判模型如何评判答案质量、评分标准是什么
- 适用范围：仅大模型评估-数值型和大模型评估-分类型评测维度需要配置
- 配置方式：
  - 选择系统预置模板（综合评测、语义相似度、情感分析等）
  - 自定义编写（适用于特定业务场景）
- 核心变量：评分器Prompt中可使用 ${prompt}、${output}、${completion} 变量

形象比喻

System Prompt：告诉“学生”（被评测模型）考试时应该以什么身份答题
评分器Prompt：告诉“阅卷老师”（裁判模型）如何批改试卷、打分标准是什么

分场景实践案例

自定义评测：大模型评估-数值型评测维度

适用场景：需要细粒度评分的场景，如问答质量、内容生成质量、客服对话质量等

使用建议：

评分标准要具体化，为每个分数档提供清晰描述
定期人工抽查高分和低分样本，验证准确性
避免所有样本都集中在某个分数段

操作步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	常识问答准确性
描述	评估模型回答常识问题的准确性
类型	选择大模型评估-数值型
裁判模型	选择千问-Max
评分器模板	选择语义相似度
评分范围	保持默认0~5
通过阈值	3.0

相关说明：

关于评分器模板的选择，界面上有3个单选按钮，可以选择其中一个（Prompt变量说明参见核心变量，和System Prompt的区别请参见System Prompt和评分器Prompt的区别）

模板	说明	适用场景	是否需要自定义Prompt
综合评测（默认）	系统预置模板，从5个维度评分（相关性、文化敏感性、信息丰富性、清晰性、用户参与度）	通用对话、客服场景	不需要，可以直接使用该Prompt或对其进行改写
语义相似度	系统预置模板，评估输出与参考答案的语义接近程度	问答系统、知识检索	不需要，可以直接使用该Prompt或对其进行改写
自定义评分器	自己编写Prompt	特定业务场景	需要，根据实际情况进行编写

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	问答测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_问答测试数据.xlsx

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	问答准确性测试
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“问答测试数据”
评测维度	选择前面创建的“常识问答准确性”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“问答准确性测试”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页。

选择数据明细Tab，查看每条数据详细评分

列名	说明
状态	评测状态：待执行、进行中、评测完成、评测失败、评测终止
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“常识问答准确性”，本列表示评分结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	100
通过率	达到阈值（≥3分）的样本占比	90%
评测集总量	测试数据总数	10条
已完成量	已评测完成的数量	10条
未完成量	未评测完成的数量	0条

自定义评测：大模型评估-分类型评测维度

适用场景：需要进行“是/否”、“通过/不通过”等正反判断的场景，如内容安全、答案正确性等

使用建议：

在Prompt中详细说明每个标签的判定条件
明确要求裁判模型只输出标签名称
定期人工抽检部分样本，确保准确性

操作步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	情感分析
描述	检测客户的情感
类型	选择大模型评估-分类型
裁判模型	选择千问-Max
评分器模板	选择情感分析
标签	不必修改，使用默认内容

相关说明：

关于评分器模板的选择，界面上有3个单选按钮，可以选择其中一个（Prompt变量说明参见核心变量，和System Prompt的区别请参见System Prompt和评分器Prompt的区别）

模板	说明	适用场景	是否需要自定义Prompt
标准匹配（默认）	系统预置模板，判断模型输出是否与参考答案一致	分类标签、函数名、固定答案	不需要，可以直接使用该Prompt或对其进行改写
情感分析	系统预置模板，分析文本情感倾向（积极/中性/消极）	用户评论、客服对话、舆情监控	不需要，可以直接使用该Prompt或对其进行改写
自定义评分器	自己编写Prompt	自定义场景，如风格判断、合规检查、逻辑校验	需要，根据实际情况进行编写

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	情感分析测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_情感分析.xlsx

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	情感分析测试
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“情感分析测试数据”
评测维度	选择前面创建的“情感分析”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“情感分析测试”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页。

选择数据明细Tab，查看每条数据详细评分

列名	说明
状态	评测状态：待执行、进行中、评测完成、评测失败、评测终止
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“情感分析”，本列表示分析结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	40
通过率	Pass的样本占比	40%
得分明细-数据项分布	分类型评估维度的统计结果分布
评测集总量	测试数据总数	10条
已完成量	已评测完成的数量	10条
未完成量	未评测完成的数量	0条

自定义评测：规则评估-字符串匹配评测维度

适用场景：答案格式固定，需要精确匹配，如Function Calling、NL2SQL

使用建议：

预处理规范化：统一大小写、去除首尾空格
对于同义词，建议改用文本相似度评分器
先用小样本测试匹配规则是否符合预期

操作步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	Function Calling验证
描述	检查模型是否正确调用了指定函数
类型	选择规则评估-字符串匹配
匹配规则	选择包含
文本对比	左侧：`${output}` 右侧：`${completion}` 左侧文本框填写模型输出变量，右侧填写参考答案变量

匹配规则如何选择：

规则	行为描述	典型应用
相等	完全相同（忽略大小写）	城市名称校验、固定答案
不相等	完全不同（忽略大小写）	禁忌词排查
包含	包含给定字符串	关键词检查、必要信息验证
开头包含	以给定字符串开头	前缀校验、格式检查
结尾包含	以给定字符串结尾	后缀校验、结束符检查

评测数据示例：

{"prompt": "今天北京天气怎么样？","completion": "query_weather"}

如果匹配规则选择“包含”，当模型输出包含 query_weather 时，判定为Pass。

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	Function Calling测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_Function_Calling.xlsx

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	Function Calling测试
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，更多说明请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“Function Calling测试数据”
评测维度	选择前面创建的“Function Calling验证”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“Function Calling测试”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页。

选择数据明细Tab，查看每条数据详细评分

列名	说明
状态	评测状态：待执行、进行中、评测完成、评测失败、评测终止
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“Function Calling验证”，本列表示分析结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	100
通过率	Pass的样本占比	100%
评测集总量	测试数据总数	2条
已完成量	已评测完成的数量	2条
未完成量	未评测完成的数量	0条

自定义评测：规则评估-文本相似度评测维度

适用场景：答案表述多样但含义相同的场景，如翻译、摘要、改写

使用建议：

先在小样本上测试，观察通过率分布，再调整阈值
关注词序和精确匹配 → 选择BLEU
关注语义理解 → 选择Cosine
需要容错 → 选择Fuzzy Match
关注关键信息覆盖 → 选择ROUGE-L

操作步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	翻译质量
描述	评估中译英的质量
类型	选择规则评估-文本相似度
相似度算法	选择BLEU_4
文本对比	左侧：`${output}` 右侧：`${completion}` 左侧文本框填写模型输出变量，右侧填写参考答案变量
通过阈值	设定为0.4，相似度≥0.4判定为Pass，范围0~1

相似度算法如何选择：

算法	特点	最佳场景	阈值建议
ROUGE-L	基于最长公共子序列	文本摘要	0.4-0.6
BLEU	基于n-gram精确匹配，对词序敏感	机器翻译	0.3-0.5
Cosine	向量空间相似度，捕捉语义	开放问答、语义理解	0.6-0.8
Fuzzy Match	基于编辑距离，容错性强	OCR、语音识别	0.7-0.9
Accuracy	完全匹配	精确答案验证	1.0

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	中译英测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_中译英.xlsx

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	翻译质量评测
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，更多说明请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“中译英测试数据”
评测维度	选择前面创建的“翻译质量”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“翻译质量评测”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页。

选择数据明细Tab，查看每条数据详细评分

列名	说明
状态	评测状态：待执行、进行中、评测完成、评测失败、评测终止
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“翻译质量”，本列表示分析结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	100
通过率	Pass的样本占比	100%
评测集总量	测试数据总数	3条
已完成量	已评测完成的数量	3条
未完成量	未评测完成的数量	0条

自定义评测：人工评估-分类型评测维度

适用场景：需要人工主观判断的场景，如创意性评估、专业质量审核

使用建议：

当模型输出质量无法仅通过算法或裁判模型精确判断时，选用人工评估
在创建维度时将每个标签的判定标准写在外部《评测指南》，并培训标注员统一理解
标签设计要覆盖所有可能输出情况，并尽量使用简洁明确的分类词
建议多名评分员交叉标注部分样本，检验一致性
避免一次标注过多数据，分批进行以降低疲劳影响

操作步骤：

1. 创建评测维度

界面位置：进入模型评测页面，选择评测维度Tab，点击右上角创建评测维度按钮

填写表单点击保存按钮

项目	填写内容
维度名称	内容创意性
描述	评估内容创意性
类型	选择人工评估-分类型
Pass	创建“优秀”和“良好”两个标签
Fail	创建“一般”和“较差”两个标签

2. 准备测试数据

界面位置：进入数据管理页面，点击右上角新增数据集按钮

填写表单并点击确认按钮

项目	填写内容
数据集名称	内容创意性测试数据
数据集类型	选择评测集类型重要模型评测只能使用评测集类型的数据集，不支持训练集
上传文件	上传案例数据_内容创意性.xlsx Completion留空，让模型生成

3. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	内容创意评测
评测方式	选择自定义评测
评测模型	选择千问-Max
System Prompt	留空，本次测试不需要，更多说明请参见System Prompt和评分器Prompt的区别
数据来源	选择评测数据集，数据集选择前面创建的“内容创意性测试数据”
评测维度	选择前面创建的“内容创意性”
是否参与排行	本次测试不参与

4. 查看任务状态

找到任务“内容创意评测”，查看评测状态列，为进行中状态。人工评估必须手动标注，系统不会自动评分，单击任务名称列，进入详情页。

选择数据明细Tab，在操作列点击标注按钮进行人工标注，所有数据标注完成后，任务的评测状态才会变为评测完成

列名	说明
状态	评测状态：进行中
序号	样本编号
Prompt	原始问题
Completion	参考答案
Output	模型生成的回答
[评测维度名称]	和评测维度相同，本次评测维度名称为“内容创意评测”，本列表示分析结果
操作	用户可执行的操作，例如点击详情按钮，查看完整的问题、答案和评测结果

选择指标统计Tab，查看评测统计

指标名称	说明	示例值
综合得分	评测维度的平均分	100
得分明细-数据项分布	分类型评估维度的统计结果分布
通过率	Pass的样本占比	100%
评测集总量	测试数据总数	3条
已完成量	已评测完成的数量	3条
未完成量	未评测完成的数量	0条

使用排行榜对比多个模型

适用场景：需要对比多个模型在相同评测维度下的表现，通过排行榜直观查看模型排名

使用建议：

对比同一系列不同规格的模型（如 qwen-max、qwen-plus、qwen-turbo）
对比不同供应商的模型（如千问 vs DeepSeek）
对比同一模型的不同版本或配置

前提条件：已创建自定义评测维度

操作步骤：

1. 创建排行榜

界面位置：进入模型评测页面，选择排行榜Tab，点击右上角创建排行榜按钮

填写表单点击确定按钮

项目	填写内容
排行榜名称	常识问答准确性排行榜
评测维度	选择已创建的评测维度，例如常识问答准确性
关联可选任务	可在此时选择已有评测任务，或在下一步添加评测任务

说明：

每个排行榜最多支持50个评测任务
排行榜创建后，评测维度不可修改
同一个排行榜内的所有任务使用相同的评测维度，确保对比的公平性

2. 添加评测任务到排行榜

界面位置：进入模型评测页面，选择排行榜Tab，点击排行榜名称进入详情页

排行榜支持两种方式添加评测任务：

方式一：创建新任务

在排行榜详情页点击 添加评测任务 按钮
点击 创建新任务
系统自动跳转到任务创建页面，并自动关联排行榜：
- 是否参与排行：自动勾选且锁定，无法取消
- 排行榜：自动填充当前排行榜名称且锁定
- 评测维度：自动填充排行榜关联的评测维度且锁定
填写其他必填项：
- 任务名称：输入任务名称，建议包含模型信息便于识别
- 评测模型：选择要评测的模型
- 数据来源：选择评测数据集
点击 开始评测 按钮

方式二：选择已有任务

在排行榜详情页点击 添加评测任务 按钮
点击 选择已有任务
从已完成的评测任务中选择要加入排行榜的任务
点击确定按钮

注意：

只有使用相同评测维度的已完成任务才能加入排行榜
建议使用相同的评测数据集以确保对比结果的准确性

3. 查看排行榜结果

界面位置：进入模型评测页面，选择排行榜Tab，点击排行榜名称进入详情页

排行榜详情页展示以下信息：

列名	说明
排名	根据排行榜得分自动计算排名，得分高的排名靠前
任务名称	评测任务的名称
评测模型	任务使用的模型名称
排行榜得分	该任务在当前评测维度下的综合得分，范围0~100
[评测维度名称]	显示该维度的具体评分，例如“语义相似度”维度显示平均相似度分数
操作	删除任务（将任务从排行榜移除，不影响任务本身）

说明：

排行榜得分会随着任务评测进度实时更新
评测进行中的任务得分列显示“-”
点击任务名称可查看该任务的详细评测数据

基线评测

适用场景：使用行业标准数据集快速验证模型通用能力（学科知识、数学推理、科学常识等）

操作步骤：

1. 创建评测任务

界面位置：进入模型评测页面，选择评测任务Tab，点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目	填写内容
任务名称	基线评测
评测方式	选择基线评测
选择模型	选择要评测的模型
选择评测数据	选择系统预设的评测数据（参见评测数据）

2. 查看任务状态

找到任务“基线评测”，查看评测状态列：

待执行：在请求高峰时段，评测任务需要排队等待执行
进行中：系统正在评测，请耐心等待
评测完成：评测已完成，可以查看结果
评测失败：评测任务执行失败
评测终止：评测任务被人工手动终止

点击页面右上角刷新按钮（），当任务状态变为评测完成后，单击任务名称列，进入详情页查看。

进阶技巧

评测维度设计最佳实践

单一职责：

每个评测维度只关注一个评测目标
避免混合多个标准
例如：不要在"准确性"维度中同时考核"流畅性"

量化标准：

尽量使用客观、可量化的标准
减少主观性
为每个分数档提供明确的判定条件

迭代优化：

根据评测结果反馈，持续优化Prompt
定期人工抽查，验证评测准确性
对比人工评分和AI评分，调整评测标准

Prompt编写技巧

请前往阿里云百炼的Prompt最佳实践和插件学习相关知识，帮助您在不进行模型调优的情况下激发模型的最大潜力。

成本优化建议

合理选择评测方式：

规则评估成本最低，适合格式化输出验证
大模型评估成本较高，用于需要语义理解的场景
人工评估成本最高，仅用于必须人工判断的情况

使用推理结果集：

对于需要频繁评测的基准模型，将其输出保存为推理结果集
避免重复调用模型，降低推理成本

分阶段评测：

先用小规模数据集（50-100条）验证配置
确认配置正确后，再扩大到200-500条

批量评测：

一次评测多个模型，提高效率
在同一个评测任务中选择多个模型

评测结果分析方法

关注分数分布：

查看各分数档的样本数量
识别分数集中的问题（如全部集中在3分）
调整评分标准或阈值

分析典型样本：

查看高分样本：了解模型优势
查看低分样本：识别模型不足
查看边界样本：优化评测标准

对比不同模型：

不要只看总分，要看不同场景下的表现
识别各模型的强项和弱项
根据业务优先级选择合适的模型

追踪模型迭代：

建立定期评测机制
记录每次调优后的评测结果
分析调优方向是否正确

常见问题排查

评测结果不符合预期：

检查测试数据是否代表业务场景
审查评测维度的Prompt是否清晰
尝试调整评分范围和阈值
考虑更换裁判模型或评分器模板

评分过于集中：

评分标准过于宽泛 → 细化每个分数档的描述
测试数据缺乏多样性 → 增加边界和异常样本
裁判模型倾向保守 → 更换推理能力更强的模型

不同评测维度结果冲突：

这很正常，说明模型在不同维度有不同表现
根据业务优先级，赋予不同维度不同权重
不要只看单一维度，要综合决策

如果模型输出频繁出现以下缺陷，建议您考虑引入知识库：

模型的输出和参考答案完全无关（模型明显缺失相关的背景知识）
模型的输出和参考答案部分相关（模型有背景知识但已过时）

计费说明

模型评测的费用主要来自两部分：被评测模型的推理费用和裁判模型的评分费用（限时免费）。

被评测模型的推理费用

模型类型	是否计费	计费说明
预置模型（如qwen-max、qwen-plus等）	支持	按Token消耗量计费
独立部署的模型（调优后部署）	不支持	不额外计费

被评测模型计费公式： $推理费用 = (输入 Token 数量 \times 输入单价) + (输出 Token 数量 \times 输出单价)$

输入Token包含：

System Prompt（如果配置了）
评测数据中的Prompt（用户问题）

输出Token包含：

模型生成的回答（Output）

裁判模型的评分费用（限时免费）

仅大模型评估（数值型、分类型）涉及到裁判模型的使用。

完整费用计算示例

场景：使用qwen-plus评测100条数据，采用大模型评估-数值型，裁判模型为qwen-max

假设：

每条Prompt平均50 Token
每条模型Output平均200 Token
每条评分器Prompt平均500 Token（包含评分标准）
每条裁判模型输出平均5 Token

费用计算：

被评测模型（qwen-plus）费用：
- 输入：100条 × 50 Token = 5,000 Token
- 输出：100条 × 200 Token = 20,000 Token
- 假设qwen-plus价格：输入¥0.002/1K Token，输出¥0.006/1K Token
- 费用 = 5,000/1000 × 0.002 + 20,000/1000 × 0.006 = ¥0.01 + ¥0.12 = ¥0.13
裁判模型（qwen-max）费用（限时免费）：￥0

总费用 = ¥0.13 + ¥0 = ¥0.13

价格参考

最新价格：请参见模型列表

注意：

价格可能随时调整，请以控制台显示为准
部分模型可能有限时优惠活动

下一步

如果您对参评模型的效果感到满意，即可开始模型调用，将模型集成到您的业务链路中。
如果您不满意参评模型的效果，可以选择其他模型重新评测。您也可以考虑学习并通过阿里云大模型ACA认证，该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景，以及如何优化大模型。