基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
快速开始
什么是模型评测
模型评测是百炼平台提供的模型质量验证工具,帮助您客观、量化地评估大语言模型的表现。
一句话总结:给模型出一套测试题,自动或人工打分,最后生成评测报告。
为什么要做模型评测
场景1:模型选型决策
问题:面对十几个大模型(通义千问、GPT、Claude、文心一言等),不知道哪个更适合我的业务。
解决方案:
准备100条业务场景的测试数据
用相同数据评测所有候选模型
对比评测报告(得分、通过率、典型样本表现)
选择最符合业务需求的模型
价值:
避免主观判断,用数据说话
节省人工逐个测试的时间
降低选型错误的风险
场景2:模型调优效果验证
问题:对通义千问进行了模型调优(提供了1000条训练数据),不确定调优是否真的有效。
解决方案:
准备评测数据集(与训练集不重叠)
分别评测调优前和调优后的模型
对比两次评测结果:
调优前得分:75分
调优后得分:85分
结论:调优有效,提升了10分
价值:
量化调优效果,验证投入是否值得
识别调优方向是否正确
为持续优化提供数据支持
场景3:模型能力量化评估
问题:需要向团队或管理层汇报模型在特定任务上的表现,但缺少客观数据。
解决方案:
使用评测功能生成评测报告
报告包含:
综合得分:85/100
通过率:90%(达到3分阈值的样本占比)
分数分布:5分30条、4分40条、3分20条、2分10条
典型案例:高分样本、低分样本
用报告数据支撑决策和汇报
价值:
用数据替代主观描述("还不错" → "得分85分,通过率90%")
便于跨团队沟通和对齐认知
为后续优化提供基线参考
场景4:持续监控模型表现
问题:模型上线后,随着时间推移或业务变化,模型表现可能下降,但很难及时发现。
解决方案:
建立定期评测机制(如每月一次)
使用相同的评测数据集和评测维度
追踪模型表现趋势:
2024年1月:得分85
2024年2月:得分87(提升)
2024年3月:得分78(下降,需要排查)
价值:
及时发现模型表现下降
为模型迭代提供数据依据
建立模型能力档案
核心价值总结
价值 | 说明 |
客观量化 | 用数据替代主观判断,避免“感觉还行”的模糊描述 |
高效对比 | 快速对比多个模型,节省人工测试时间 |
风险控制 | 上线前充分验证,降低模型选型错误的风险 |
持续优化 | 为模型调优和迭代提供量化的效果反馈 |
决策支持 | 为团队协作和管理层汇报提供数据支撑 |
一图看懂评测流程
快速体验
评测场景:评测通义千问-Max在常识问答任务中的准确性
完整案例:使用10条测试问题,评估模型回答的语义相似度
体验步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | 常识问答准确性 |
描述 | 评估模型回答常识问题的准确性 |
类型 | 选择大模型评估-数值型 |
裁判模型 | 选择通义千问-Max |
评分器模板 | 选择语义相似度 |
评分范围 | 保持默认0~5 |
通过阈值 | 3.0 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
模板 | 说明 | 适用场景 | 是否需要自定义Prompt |
综合评测 (默认) | 系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度) | 通用对话、客服场景 | 不需要,可以直接使用该Prompt或对其进行改写 |
语义相似度 | 系统预置模板,评估输出与参考答案的语义接近程度 | 问答系统、知识检索 | 不需要,可以直接使用该Prompt或对其进行改写 |
自定义评分器 | 自己编写Prompt | 特定业务场景 | 需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | 问答测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 问答准确性测试 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“问答测试数据” |
评测维度 | 选择前面创建的“常识问答准确性” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“问答准确性测试”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
达到阈值(≥3分)的样本占比
90%
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
核心概念
自定义评测和基线评测对比
对比维度 | ||
适用场景 | 业务场景评测、自定义标准 | 模型通用能力验证(学科、数学、推理) |
评测标准 | 自定义评测维度(5种类型) | 使用预置评测规则 |
是否需要创建评测维度 | 必须创建 | 不需要 |
数据来源 |
| 预置标准数据集(系统提供),参见基线评测-评测数据 |
数据格式 | Excel(2~3列:Prompt、Completion、Output) | 无需准备,直接选择 |
灵活性 | 高,可自定义一切 | 低,使用行业标准 |
评测流程 | ||
如何选择:
首次使用 / 业务场景评测:自定义评测(更灵活)
调优后验证通用能力:基线评测(快速对比)
最佳实践:两者结合使用
自定义评测
支持的模型
通义千问-QwQ/Max/Plus/Turbo/Coder/Math
通义千问开源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)
通义法睿
第三方文本生成模型(abab6.5g、abab6.5t等)
上述列表并不完整且可能随时发生变化,请以创建评测任务页面中评测模型显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。
评测维度
评测维度就是评分标准,决定了如何给模型打分。自定义评测必须先创建评测维度。
评测维度类型(5种)
类型
评分方式
适用场景
成本
推荐度
大模型评估-数值型
AI裁判打分(1-5分)
问答质量、内容生成质量
中
⭐⭐⭐⭐⭐
规则评估-文本相似度
算法计算相似度
翻译、摘要、改写
低
⭐⭐⭐⭐
大模型评估-分类型
AI裁判分类(Pass/Fail)
内容安全、正确性判断
中
⭐⭐⭐
规则评估-字符串匹配
精确字符串匹配
Function Calling、NL2SQL
极低
⭐⭐⭐
人工评估-分类型
人工打标签
创意性、专业判断
高
⭐⭐
如何快速选择评测维度类型?
一个评测任务可以组合多个评测维度。
评测数据
数据来源类型
数据类型
说明
工作流程
适用场景
评测数据集
包含问题(prompt)和参考答案(completion)
系统调用模型实时推理 → 生成output → 评分器打分
首次评测
对比多个模型
模型尚未生成结果
推理结果集
已包含模型输出(output)
系统直接读取output → 评分器打分(不推理)
模型已生成结果
降低推理成本
作为对照组的基准模型
数据格式要求:Excel
评测数据集示例:
Prompt
Completion
什么是云计算?
云计算是按需提供的共享计算资源池
Python如何定义函数?
使用def关键字定义函数
推理结果集示例:
多一列Output
Prompt
Completion
Output
什么是云计算?
云计算是按需提供的共享计算资源池
云计算是一种通过互联网提供计算资源的服务模式...
数据量建议:
阶段
建议数量
说明
小规模验证
50~100条
验证配置是否正确
正式评测
200~500条
获得可靠的统计结果
全面评估
500+条
覆盖各种边界情况
排行榜
什么是排行榜:
用于对比多个模型在同一评测维度上的表现
可视化展示模型优劣排序
支持多个评测任务的横向对比
何时需要排行榜:
需要对比多个模型的表现(如 GPT-4 vs Claude vs 通义千问)
想要可视化展示模型在业务场景中的优劣
需要在团队内部分享模型对比结果
核心变量
适用范围:本节仅适用于大模型评估-数值型和大模型评估-分类型评测维度。
在大模型评估时,裁判模型会接收以下三个变量:
变量名 | 说明 | 示例 | 使用场景 |
| 原始输入:用户的问题或指令 | 什么是云计算? | 所有场景都需要 |
| 模型输出:参评模型生成的回答 | 云计算是一种通过互联网... | 所有场景都需要 |
| 参考答案:标准答案或期望输出 | 云计算是按需提供的... | 有标准答案时使用 |
如何在Prompt中使用:
请评估以下回答的质量:
**用户问题**:${prompt}
**模型回答**:${output}
**参考答案**:${completion}
评分标准:
- 5分:回答完全正确,与参考答案语义一致
- 4分:回答基本正确,有少量偏差
- 3分:回答部分正确
- 2分:回答大部分错误
- 1分:回答完全错误或答非所问基线评测
支持的模型
基线评测仅支持调优后的模型,不支持预置模型(如通义千问-Max)。
为什么只支持调优模型:
基线评测使用行业标准数据集(如 C-Eval、MMLU)评估模型能力
主要用于验证模型调优后的效果提升
可与业界其他模型对比
如何确认你的模型是否支持:
评测数据
基线评测无需准备评测数据,直接选择系统提供的数据:学科、数学或推理类的标准榜单(相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致,定期更新)。
学科:用于评测模型在日常生活常识及学科知识方面的掌握情况。
数学:用于评测模型解决基础数学问题的能力。
推理:用于评测模型的中文自然语言推理能力,例如判断两个句子之间的逻辑关系(蕴含、矛盾)。
分类 | 评测数据 | 说明 |
学科 | C-Eval | C-Eval 主要用于评估模型对中文文本的理解和应用能力,它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。 |
MMLU | MMLU 主要用于评估模型在广泛领域的知识掌握情况,它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。 | |
ARC | ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力,它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。 | |
数学 | GSM8K | GSM8K 主要用于评估模型解决基础数学问题的能力,它包含了超过8,000个小学数学问题。 |
推理 | HellaSwag | HellaSwag 主要用于评估模型在日常生活常识推理方面的能力,它包含了超过70,000道推理测试题。 |
BBH | BBH(Big-Bench Hard)主要用于评估模型的深度复杂推理和多步推理能力,它精选了来自 BIG-Bench 的23个具有挑战性的测试题,涵盖逻辑推理、语言理解和创造性思维等领域。 |
基线评测特有的报告内容
基线评测的结果报告与自定义评测不同,提供以下特有内容:
分学科得分明细(C-Eval 和 MMLU)
可以查看模型在每个学科的得分,例如:
计算机科学:85%
法律:72%
医学:68%
数学:90%
能力雷达图
可视化展示模型在不同维度的能力:
知识掌握
推理能力
数学能力
常识理解
行业对比
将你的模型与业界标准模型对比:
GPT-4:XX分
你的模型:XX分
Claude:XX分
System Prompt和评分器Prompt的区别
在模型评测中,有两种容易混淆的Prompt配置,它们在不同环节发挥作用:
Prompt类型 | 配置位置 | 作用对象 | 作用阶段 | 是否必填 | 费用归属 |
System Prompt | 创建评测任务时 | 被评测模型 | 模型生成答案时 | 否 | |
评分器Prompt | 创建大模型评估-数值型和大模型评估-分类型评测维度时 | 裁判模型 | 裁判模型给答案打分时 | 是 |
详细说明
System Prompt
用途:为被评测模型设定角色定位或行为规范
示例场景:
评测客服场景:“你是一位专业的客服人员,请礼貌、准确地回答客户问题。”
评测代码助手:“你是一位编程专家,请提供准确、简洁的代码示例。”
何时使用:仅在需要给被评测模型设定特定身份或约束时填写,大多数情况下可以留空
评分器Prompt
用途:告诉裁判模型如何评判答案质量、评分标准是什么
适用范围:仅大模型评估-数值型和大模型评估-分类型评测维度需要配置
配置方式:
选择系统预置模板(综合评测、语义相似度、情感分析等)
自定义编写(适用于特定业务场景)
核心变量:评分器Prompt中可使用 ${prompt}、${output}、${completion} 变量
形象比喻
System Prompt:告诉“学生”(被评测模型)考试时应该以什么身份答题
评分器Prompt:告诉“阅卷老师”(裁判模型)如何批改试卷、打分标准是什么
分场景实践案例
自定义评测:大模型评估-数值型评测维度
适用场景:需要细粒度评分的场景,如问答质量、内容生成质量、客服对话质量等
使用建议:
评分标准要具体化,为每个分数档提供清晰描述
定期人工抽查高分和低分样本,验证准确性
避免所有样本都集中在某个分数段
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | 常识问答准确性 |
描述 | 评估模型回答常识问题的准确性 |
类型 | 选择大模型评估-数值型 |
裁判模型 | 选择通义千问-Max |
评分器模板 | 选择语义相似度 |
评分范围 | 保持默认0~5 |
通过阈值 | 3.0 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
模板 | 说明 | 适用场景 | 是否需要自定义Prompt |
综合评测 (默认) | 系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度) | 通用对话、客服场景 | 不需要,可以直接使用该Prompt或对其进行改写 |
语义相似度 | 系统预置模板,评估输出与参考答案的语义接近程度 | 问答系统、知识检索 | 不需要,可以直接使用该Prompt或对其进行改写 |
自定义评分器 | 自己编写Prompt | 特定业务场景 | 需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | 问答测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 问答准确性测试 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“问答测试数据” |
评测维度 | 选择前面创建的“常识问答准确性” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“问答准确性测试”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
达到阈值(≥3分)的样本占比
90%
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
自定义评测:大模型评估-分类型评测维度
适用场景:需要进行“是/否”、“通过/不通过”等正反判断的场景,如内容安全、答案正确性等
使用建议:
在Prompt中详细说明每个标签的判定条件
明确要求裁判模型只输出标签名称
定期人工抽检部分样本,确保准确性
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | 情感分析 |
描述 | 检测客户的情感 |
类型 | 选择大模型评估-分类型 |
裁判模型 | 选择通义千问-Max |
评分器模板 | 选择情感分析 |
标签 | 不必修改,使用默认内容 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
模板 | 说明 | 适用场景 | 是否需要自定义Prompt |
标准匹配 (默认) | 系统预置模板,判断模型输出是否与参考答案一致 | 分类标签、函数名、固定答案 | 不需要,可以直接使用该Prompt或对其进行改写 |
情感分析 | 系统预置模板,分析文本情感倾向(积极/中性/消极) | 用户评论、客服对话、舆情监控 | 不需要,可以直接使用该Prompt或对其进行改写 |
自定义评分器 | 自己编写Prompt | 自定义场景,如风格判断、合规检查、逻辑校验 | 需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | 情感分析测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 情感分析测试 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“情感分析测试数据” |
评测维度 | 选择前面创建的“情感分析” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“情感分析测试”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“情感分析”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
40
通过率
Pass的样本占比
40%
得分明细-数据项分布
分类型评估维度的统计结果分布
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
自定义评测:规则评估-字符串匹配评测维度
适用场景:答案格式固定,需要精确匹配,如Function Calling、NL2SQL
使用建议:
预处理规范化:统一大小写、去除首尾空格
对于同义词,建议改用文本相似度评分器
先用小样本测试匹配规则是否符合预期
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | Function Calling验证 |
描述 | 检查模型是否正确调用了指定函数 |
类型 | 选择规则评估-字符串匹配 |
匹配规则 | 选择包含 |
文本对比 | 左侧: 左侧文本框填写模型输出变量,右侧填写参考答案变量 |
匹配规则如何选择:
规则 | 行为描述 | 典型应用 |
相等 | 完全相同(忽略大小写) | 城市名称校验、固定答案 |
不相等 | 完全不同(忽略大小写) | 禁忌词排查 |
包含 | 包含给定字符串 | 关键词检查、必要信息验证 |
开头包含 | 以给定字符串开头 | 前缀校验、格式检查 |
结尾包含 | 以给定字符串结尾 | 后缀校验、结束符检查 |
评测数据示例:
{"prompt": "今天北京天气怎么样?","completion": "query_weather"}如果匹配规则选择“包含”,当模型输出包含 query_weather 时,判定为Pass。
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | Function Calling测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | Function Calling测试 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“Function Calling测试数据” |
评测维度 | 选择前面创建的“Function Calling验证” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“Function Calling测试”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“Function Calling验证”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
2条
已完成量
已评测完成的数量
2条
未完成量
未评测完成的数量
0条
自定义评测:规则评估-文本相似度评测维度
适用场景:答案表述多样但含义相同的场景,如翻译、摘要、改写
使用建议:
先在小样本上测试,观察通过率分布,再调整阈值
关注词序和精确匹配 → 选择BLEU
关注语义理解 → 选择Cosine
需要容错 → 选择Fuzzy Match
关注关键信息覆盖 → 选择ROUGE-L
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | 翻译质量 |
描述 | 评估中译英的质量 |
类型 | 选择规则评估-文本相似度 |
相似度算法 | 选择BLEU_4 |
文本对比 | 左侧: 左侧文本框填写模型输出变量,右侧填写参考答案变量 |
通过阈值 | 设定为0.4,相似度≥0.4判定为Pass,范围0~1 |
相似度算法如何选择:
算法 | 特点 | 最佳场景 | 阈值建议 |
ROUGE-L | 基于最长公共子序列 | 文本摘要 | 0.4-0.6 |
BLEU | 基于n-gram精确匹配,对词序敏感 | 机器翻译 | 0.3-0.5 |
Cosine | 向量空间相似度,捕捉语义 | 开放问答、语义理解 | 0.6-0.8 |
Fuzzy Match | 基于编辑距离,容错性强 | OCR、语音识别 | 0.7-0.9 |
Accuracy | 完全匹配 | 精确答案验证 | 1.0 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | 中译英测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 翻译质量评测 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“中译英测试数据” |
评测维度 | 选择前面创建的“翻译质量” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“翻译质量评测”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“翻译质量”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
3条
已完成量
已评测完成的数量
3条
未完成量
未评测完成的数量
0条
自定义评测:人工评估-分类型评测维度
适用场景:需要人工主观判断的场景,如创意性评估、专业质量审核
使用建议:
当模型输出质量无法仅通过算法或裁判模型精确判断时,选用人工评估
在创建维度时将每个标签的判定标准写在外部《评测指南》,并培训标注员统一理解
标签设计要覆盖所有可能输出情况,并尽量使用简洁明确的分类词
建议多名评分员交叉标注部分样本,检验一致性
避免一次标注过多数据,分批进行以降低疲劳影响
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
项目 | 填写内容 |
维度名称 | 内容创意性 |
描述 | 评估内容创意性 |
类型 | 选择人工评估-分类型 |
Pass | 创建“优秀”和“良好”两个标签 |
Fail | 创建“一般”和“较差”两个标签 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
项目 | 填写内容 |
数据集名称 | 内容创意性测试数据 |
数据集类型 | 选择评测集类型 重要 模型评测只能使用评测集类型的数据集,不支持训练集 |
上传文件 | Completion留空,让模型生成 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 内容创意评测 |
评测方式 | 选择自定义评测 |
评测模型 | 选择通义千问-Max |
System Prompt | 留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
数据来源 | 选择评测数据集,数据集选择前面创建的“内容创意性测试数据” |
评测维度 | 选择前面创建的“内容创意性” |
是否参与排行 | 本次测试不参与 |
4. 查看任务状态
找到任务“内容创意评测”,查看评测状态列,为进行中状态。人工评估必须手动标注,系统不会自动评分,单击任务名称列,进入详情页。
选择数据明细Tab,在操作列点击标注按钮进行人工标注,所有数据标注完成后,任务的评测状态才会变为评测完成
列名
说明
状态
评测状态:进行中
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“内容创意评测”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
得分明细-数据项分布
分类型评估维度的统计结果分布
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
3条
已完成量
已评测完成的数量
3条
未完成量
未评测完成的数量
0条
使用排行榜对比多个模型
适用场景:需要对比多个模型在相同评测维度下的表现,通过排行榜直观查看模型排名
使用建议:
对比同一系列不同规格的模型(如 qwen-max、qwen-plus、qwen-turbo)
对比不同供应商的模型(如通义千问 vs DeepSeek)
对比同一模型的不同版本或配置
前提条件:已创建自定义评测维度
操作步骤:
1. 创建排行榜
界面位置:进入模型评测页面,选择排行榜Tab,点击右上角创建排行榜按钮
填写表单点击确定按钮
项目 | 填写内容 |
排行榜名称 | 常识问答准确性排行榜 |
评测维度 | 选择已创建的评测维度,例如常识问答准确性 |
关联可选任务 | 可在此时选择已有评测任务,或在下一步添加评测任务 |
说明:
每个排行榜最多支持50个评测任务
排行榜创建后,评测维度不可修改
同一个排行榜内的所有任务使用相同的评测维度,确保对比的公平性
2. 添加评测任务到排行榜
界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页
排行榜支持两种方式添加评测任务:
方式一:创建新任务
在排行榜详情页点击 添加评测任务 按钮
点击 创建新任务
系统自动跳转到任务创建页面,并自动关联排行榜:
是否参与排行:自动勾选且锁定,无法取消
排行榜:自动填充当前排行榜名称且锁定
评测维度:自动填充排行榜关联的评测维度且锁定
填写其他必填项:
任务名称:输入任务名称,建议包含模型信息便于识别
评测模型:选择要评测的模型
数据来源:选择评测数据集
点击 开始评测 按钮
方式二:选择已有任务
在排行榜详情页点击 添加评测任务 按钮
点击 选择已有任务
从已完成的评测任务中选择要加入排行榜的任务
点击 确定 按钮
注意:
只有使用相同评测维度的已完成任务才能加入排行榜
建议使用相同的评测数据集以确保对比结果的准确性
3. 查看排行榜结果
界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页
排行榜详情页展示以下信息:
列名 | 说明 |
排名 | 根据排行榜得分自动计算排名,得分高的排名靠前 |
任务名称 | 评测任务的名称 |
评测模型 | 任务使用的模型名称 |
排行榜得分 | 该任务在当前评测维度下的综合得分,范围0~100 |
[评测维度名称] | 显示该维度的具体评分,例如“语义相似度”维度显示平均相似度分数 |
操作 | 删除任务(将任务从排行榜移除,不影响任务本身) |
说明:
排行榜得分会随着任务评测进度实时更新
评测进行中的任务得分列显示“-”
点击任务名称可查看该任务的详细评测数据
基线评测
适用场景:使用行业标准数据集快速验证模型通用能力(学科知识、数学推理、科学常识等)
操作步骤:
1. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
项目 | 填写内容 |
任务名称 | 基线评测 |
评测方式 | 选择基线评测 |
选择模型 | 选择要评测的模型 |
选择评测数据 | 选择系统预设的评测数据(参见评测数据) |
2. 查看任务状态
找到任务“基线评测”,查看评测状态列:
待执行:在请求高峰时段,评测任务需要排队等待执行
进行中:系统正在评测,请耐心等待
评测完成:评测已完成,可以查看结果
评测失败:评测任务执行失败
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页查看。
进阶技巧
评测维度设计最佳实践
单一职责:
每个评测维度只关注一个评测目标
避免混合多个标准
例如:不要在"准确性"维度中同时考核"流畅性"
量化标准:
尽量使用客观、可量化的标准
减少主观性
为每个分数档提供明确的判定条件
迭代优化:
根据评测结果反馈,持续优化Prompt
定期人工抽查,验证评测准确性
对比人工评分和AI评分,调整评测标准
Prompt编写技巧
请前往阿里云百炼的Prompt最佳实践和插件学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。
成本优化建议
合理选择评测方式:
规则评估成本最低,适合格式化输出验证
大模型评估成本较高,用于需要语义理解的场景
人工评估成本最高,仅用于必须人工判断的情况
使用推理结果集:
对于需要频繁评测的基准模型,将其输出保存为推理结果集
避免重复调用模型,降低推理成本
分阶段评测:
先用小规模数据集(50-100条)验证配置
确认配置正确后,再扩大到200-500条
批量评测:
一次评测多个模型,提高效率
在同一个评测任务中选择多个模型
评测结果分析方法
关注分数分布:
查看各分数档的样本数量
识别分数集中的问题(如全部集中在3分)
调整评分标准或阈值
分析典型样本:
查看高分样本:了解模型优势
查看低分样本:识别模型不足
查看边界样本:优化评测标准
对比不同模型:
不要只看总分,要看不同场景下的表现
识别各模型的强项和弱项
根据业务优先级选择合适的模型
追踪模型迭代:
建立定期评测机制
记录每次调优后的评测结果
分析调优方向是否正确
常见问题排查
评测结果不符合预期:
检查测试数据是否代表业务场景
审查评测维度的Prompt是否清晰
尝试调整评分范围和阈值
考虑更换裁判模型或评分器模板
评分过于集中:
评分标准过于宽泛 → 细化每个分数档的描述
测试数据缺乏多样性 → 增加边界和异常样本
裁判模型倾向保守 → 更换推理能力更强的模型
不同评测维度结果冲突:
这很正常,说明模型在不同维度有不同表现
根据业务优先级,赋予不同维度不同权重
不要只看单一维度,要综合决策
如果模型输出频繁出现以下缺陷,建议您考虑引入知识库:
模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)
模型的输出和参考答案部分相关(模型有背景知识但已过时)
计费说明
模型评测的费用主要来自两部分:被评测模型的推理费用和裁判模型的评分费用(限时免费)。
被评测模型的推理费用
模型类型 | 是否计费 | 计费说明 |
预置模型(如qwen-max、qwen-plus等) | 按Token消耗量计费 | |
独立部署的模型(调优后部署) | 不额外计费 |
被评测模型计费公式:
输入Token包含:
System Prompt(如果配置了)
评测数据中的Prompt(用户问题)
输出Token包含:
模型生成的回答(Output)
裁判模型的评分费用(限时免费)
仅大模型评估(数值型、分类型)涉及到裁判模型的使用。
完整费用计算示例
场景:使用qwen-plus评测100条数据,采用大模型评估-数值型,裁判模型为qwen-max
假设:
每条Prompt平均50 Token
每条模型Output平均200 Token
每条评分器Prompt平均500 Token(包含评分标准)
每条裁判模型输出平均5 Token
费用计算:
被评测模型(qwen-plus)费用:
输入:100条 × 50 Token = 5,000 Token
输出:100条 × 200 Token = 20,000 Token
假设qwen-plus价格:输入¥0.002/1K Token,输出¥0.006/1K Token
费用 = 5,000/1000 × 0.002 + 20,000/1000 × 0.006 = ¥0.01 + ¥0.12 = ¥0.13
裁判模型(qwen-max)费用(限时免费):¥0
总费用 = ¥0.13 + ¥0 = ¥0.13
价格参考
最新价格:请参见模型列表
注意:
价格可能随时调整,请以控制台显示为准
部分模型可能有限时优惠活动
下一步
如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。
如果您不满意参评模型的效果,可以选择其他模型重新评测。您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。