基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
快速开始
什么是模型评测
模型评测是百炼平台提供的模型质量验证工具,帮助您客观、量化地评估大语言模型的表现。
一句话总结:给模型出一套测试题,自动或人工打分,最后生成评测报告。
为什么要做模型评测
场景1:模型选型决策
问题:面对十几个大模型(千问、GPT、Claude、文心一言等),不知道哪个更适合我的业务。
解决方案:
-
准备100条业务场景的测试数据
-
用相同数据评测所有候选模型
-
对比评测报告(得分、通过率、典型样本表现)
-
选择最符合业务需求的模型
价值:
-
避免主观判断,用数据说话
-
节省人工逐个测试的时间
-
降低选型错误的风险
场景2:模型调优效果验证
问题:对千问进行了模型调优(提供了1000条训练数据),不确定调优是否真的有效。
解决方案:
-
准备评测数据集(与训练集不重叠)
-
分别评测调优前和调优后的模型
-
对比两次评测结果:
-
调优前得分:75分
-
调优后得分:85分
-
结论:调优有效,提升了10分
-
价值:
-
量化调优效果,验证投入是否值得
-
识别调优方向是否正确
-
为持续优化提供数据支持
场景3:模型能力量化评估
问题:需要向团队或管理层汇报模型在特定任务上的表现,但缺少客观数据。
解决方案:
-
使用评测功能生成评测报告
-
报告包含:
-
综合得分:85/100
-
通过率:90%(达到3分阈值的样本占比)
-
分数分布:5分30条、4分40条、3分20条、2分10条
-
典型案例:高分样本、低分样本
-
-
用报告数据支撑决策和汇报
价值:
-
用数据替代主观描述("还不错" → "得分85分,通过率90%")
-
便于跨团队沟通和对齐认知
-
为后续优化提供基线参考
场景4:持续监控模型表现
问题:模型上线后,随着时间推移或业务变化,模型表现可能下降,但很难及时发现。
解决方案:
-
建立定期评测机制(如每月一次)
-
使用相同的评测数据集和评测维度
-
追踪模型表现趋势:
-
2024年1月:得分85
-
2024年2月:得分87(提升)
-
2024年3月:得分78(下降,需要排查)
-
价值:
-
及时发现模型表现下降
-
为模型迭代提供数据依据
-
建立模型能力档案
核心价值总结
|
价值 |
说明 |
|
客观量化 |
用数据替代主观判断,避免“感觉还行”的模糊描述 |
|
高效对比 |
快速对比多个模型,节省人工测试时间 |
|
风险控制 |
上线前充分验证,降低模型选型错误的风险 |
|
持续优化 |
为模型调优和迭代提供量化的效果反馈 |
|
决策支持 |
为团队协作和管理层汇报提供数据支撑 |
一图看懂评测流程
快速体验
评测场景:评测千问-Max在常识问答任务中的准确性
完整案例:使用10条测试问题,评估模型回答的语义相似度
体验步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
常识问答准确性 |
|
描述 |
评估模型回答常识问题的准确性 |
|
类型 |
选择大模型评估-数值型 |
|
裁判模型 |
选择千问-Max |
|
评分器模板 |
选择语义相似度 |
|
评分范围 |
保持默认0~5 |
|
通过阈值 |
3.0 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
|
模板 |
说明 |
适用场景 |
是否需要自定义Prompt |
|
综合评测 (默认) |
系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度) |
通用对话、客服场景 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
语义相似度 |
系统预置模板,评估输出与参考答案的语义接近程度 |
问答系统、知识检索 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
自定义评分器 |
自己编写Prompt |
特定业务场景 |
需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
问答测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
问答准确性测试 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“问答测试数据” |
|
评测维度 |
选择前面创建的“常识问答准确性” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“问答准确性测试”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
-
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
达到阈值(≥3分)的样本占比
90%
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
核心概念
自定义评测和基线评测对比
|
对比维度 |
||
|
适用场景 |
业务场景评测、自定义标准 |
模型通用能力验证(学科、数学、推理) |
|
评测标准 |
自定义评测维度(5种类型) |
使用预置评测规则 |
|
是否需要创建评测维度 |
必须创建 |
不需要 |
|
数据来源 |
|
预置标准数据集(系统提供),参见基线评测-评测数据 |
|
数据格式 |
Excel(2~3列:Prompt、Completion、Output) |
无需准备,直接选择 |
|
灵活性 |
高,可自定义一切 |
低,使用行业标准 |
|
评测流程 |
|
|
如何选择:
-
首次使用 / 业务场景评测:自定义评测(更灵活)
-
调优后验证通用能力:基线评测(快速对比)
-
最佳实践:两者结合使用
自定义评测
支持的模型
-
千问-QwQ/Max/Plus/Turbo/Coder/Math
-
千问开源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)
-
通义法睿
-
第三方文本生成模型(abab6.5g、abab6.5t等)
上述列表并不完整且可能随时发生变化,请以创建评测任务页面中评测模型显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。
评测维度
评测维度就是评分标准,决定了如何给模型打分。自定义评测必须先创建评测维度。
-
评测维度类型(5种)
类型
评分方式
适用场景
成本
推荐度
大模型评估-数值型
AI裁判打分(1-5分)
问答质量、内容生成质量
中
⭐⭐⭐⭐⭐
规则评估-文本相似度
算法计算相似度
翻译、摘要、改写
低
⭐⭐⭐⭐
大模型评估-分类型
AI裁判分类(Pass/Fail)
内容安全、正确性判断
中
⭐⭐⭐
规则评估-字符串匹配
精确字符串匹配
Function Calling、NL2SQL
极低
⭐⭐⭐
人工评估-分类型
人工打标签
创意性、专业判断
高
⭐⭐
-
如何快速选择评测维度类型?
一个评测任务可以组合多个评测维度。
评测数据
-
数据来源类型
数据类型
说明
工作流程
适用场景
评测数据集
包含问题(prompt)和参考答案(completion)
系统调用模型实时推理 → 生成output → 评分器打分
-
首次评测
-
对比多个模型
-
模型尚未生成结果
推理结果集
已包含模型输出(output)
系统直接读取output → 评分器打分(不推理)
-
模型已生成结果
-
降低推理成本
-
作为对照组的基准模型
-
-
数据格式要求:Excel
-
评测数据集示例:
Prompt
Completion
什么是云计算?
云计算是按需提供的共享计算资源池
Python如何定义函数?
使用def关键字定义函数
-
推理结果集示例:
多一列Output
Prompt
Completion
Output
什么是云计算?
云计算是按需提供的共享计算资源池
云计算是一种通过互联网提供计算资源的服务模式...
-
数据量建议:
阶段
建议数量
说明
小规模验证
50~100条
验证配置是否正确
正式评测
200~500条
获得可靠的统计结果
全面评估
500+条
覆盖各种边界情况
排行榜
什么是排行榜:
-
用于对比多个模型在同一评测维度上的表现
-
可视化展示模型优劣排序
-
支持多个评测任务的横向对比
何时需要排行榜:
-
需要对比多个模型的表现(如 GPT-4 vs Claude vs 千问)
-
想要可视化展示模型在业务场景中的优劣
-
需要在团队内部分享模型对比结果
核心变量
适用范围:本节仅适用于大模型评估-数值型和大模型评估-分类型评测维度。
在大模型评估时,裁判模型会接收以下三个变量:
|
变量名 |
说明 |
示例 |
使用场景 |
|
|
原始输入:用户的问题或指令 |
什么是云计算? |
所有场景都需要 |
|
|
模型输出:参评模型生成的回答 |
云计算是一种通过互联网... |
所有场景都需要 |
|
|
参考答案:标准答案或期望输出 |
云计算是按需提供的... |
有标准答案时使用 |
如何在Prompt中使用:
请评估以下回答的质量:
**用户问题**:${prompt}
**模型回答**:${output}
**参考答案**:${completion}
评分标准:
- 5分:回答完全正确,与参考答案语义一致
- 4分:回答基本正确,有少量偏差
- 3分:回答部分正确
- 2分:回答大部分错误
- 1分:回答完全错误或答非所问
基线评测
支持的模型
基线评测仅支持调优后的模型,不支持预置模型(如千问-Max)。
为什么只支持调优模型:
-
基线评测使用行业标准数据集(如 C-Eval、MMLU)评估模型能力
-
主要用于验证模型调优后的效果提升
-
可与业界其他模型对比
如何确认你的模型是否支持:
评测数据
基线评测无需准备评测数据,直接选择系统提供的数据:学科、数学或推理类的标准榜单(相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致,定期更新)。
学科:用于评测模型在日常生活常识及学科知识方面的掌握情况。
数学:用于评测模型解决基础数学问题的能力。
推理:用于评测模型的中文自然语言推理能力,例如判断两个句子之间的逻辑关系(蕴含、矛盾)。
|
分类 |
评测数据 |
说明 |
|
学科 |
C-Eval |
C-Eval 主要用于评估模型对中文文本的理解和应用能力,它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。 |
|
MMLU |
MMLU 主要用于评估模型在广泛领域的知识掌握情况,它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。 |
|
|
ARC |
ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力,它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。 |
|
|
数学 |
GSM8K |
GSM8K 主要用于评估模型解决基础数学问题的能力,它包含了超过8,000个小学数学问题。 |
|
推理 |
HellaSwag |
HellaSwag 主要用于评估模型在日常生活常识推理方面的能力,它包含了超过70,000道推理测试题。 |
|
BBH |
BBH(Big-Bench Hard)主要用于评估模型的深度复杂推理和多步推理能力,它精选了来自 BIG-Bench 的23个具有挑战性的测试题,涵盖逻辑推理、语言理解和创造性思维等领域。 |
基线评测特有的报告内容
基线评测的结果报告与自定义评测不同,提供以下特有内容:
-
分学科得分明细(C-Eval 和 MMLU)
可以查看模型在每个学科的得分,例如:
-
计算机科学:85%
-
法律:72%
-
医学:68%
-
数学:90%
-
-
能力雷达图
可视化展示模型在不同维度的能力:
-
知识掌握
-
推理能力
-
数学能力
-
常识理解
-
-
行业对比
将你的模型与业界标准模型对比:
-
GPT-4:XX分
-
你的模型:XX分
-
Claude:XX分
-
System Prompt和评分器Prompt的区别
在模型评测中,有两种容易混淆的Prompt配置,它们在不同环节发挥作用:
|
Prompt类型 |
配置位置 |
作用对象 |
作用阶段 |
是否必填 |
费用归属 |
|
System Prompt |
创建评测任务时 |
被评测模型 |
模型生成答案时 |
否 |
|
|
评分器Prompt |
创建大模型评估-数值型和大模型评估-分类型评测维度时 |
裁判模型 |
裁判模型给答案打分时 |
是 |
详细说明
-
System Prompt
-
用途:为被评测模型设定角色定位或行为规范
-
示例场景:
-
评测客服场景:“你是一位专业的客服人员,请礼貌、准确地回答客户问题。”
-
评测代码助手:“你是一位编程专家,请提供准确、简洁的代码示例。”
-
-
何时使用:仅在需要给被评测模型设定特定身份或约束时填写,大多数情况下可以留空
-
-
评分器Prompt
-
用途:告诉裁判模型如何评判答案质量、评分标准是什么
-
适用范围:仅大模型评估-数值型和大模型评估-分类型评测维度需要配置
-
配置方式:
-
选择系统预置模板(综合评测、语义相似度、情感分析等)
-
自定义编写(适用于特定业务场景)
-
-
核心变量:评分器Prompt中可使用 ${prompt}、${output}、${completion} 变量
-
形象比喻
-
System Prompt:告诉“学生”(被评测模型)考试时应该以什么身份答题
-
评分器Prompt:告诉“阅卷老师”(裁判模型)如何批改试卷、打分标准是什么
分场景实践案例
自定义评测:大模型评估-数值型评测维度
适用场景:需要细粒度评分的场景,如问答质量、内容生成质量、客服对话质量等
使用建议:
-
评分标准要具体化,为每个分数档提供清晰描述
-
定期人工抽查高分和低分样本,验证准确性
-
避免所有样本都集中在某个分数段
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
常识问答准确性 |
|
描述 |
评估模型回答常识问题的准确性 |
|
类型 |
选择大模型评估-数值型 |
|
裁判模型 |
选择千问-Max |
|
评分器模板 |
选择语义相似度 |
|
评分范围 |
保持默认0~5 |
|
通过阈值 |
3.0 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
|
模板 |
说明 |
适用场景 |
是否需要自定义Prompt |
|
综合评测 (默认) |
系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度) |
通用对话、客服场景 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
语义相似度 |
系统预置模板,评估输出与参考答案的语义接近程度 |
问答系统、知识检索 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
自定义评分器 |
自己编写Prompt |
特定业务场景 |
需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
问答测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
问答准确性测试 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“问答测试数据” |
|
评测维度 |
选择前面创建的“常识问答准确性” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“问答准确性测试”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
-
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
达到阈值(≥3分)的样本占比
90%
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
自定义评测:大模型评估-分类型评测维度
适用场景:需要进行“是/否”、“通过/不通过”等正反判断的场景,如内容安全、答案正确性等
使用建议:
-
在Prompt中详细说明每个标签的判定条件
-
明确要求裁判模型只输出标签名称
-
定期人工抽检部分样本,确保准确性
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
情感分析 |
|
描述 |
检测客户的情感 |
|
类型 |
选择大模型评估-分类型 |
|
裁判模型 |
选择千问-Max |
|
评分器模板 |
选择情感分析 |
|
标签 |
不必修改,使用默认内容 |
相关说明:
关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别)
|
模板 |
说明 |
适用场景 |
是否需要自定义Prompt |
|
标准匹配 (默认) |
系统预置模板,判断模型输出是否与参考答案一致 |
分类标签、函数名、固定答案 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
情感分析 |
系统预置模板,分析文本情感倾向(积极/中性/消极) |
用户评论、客服对话、舆情监控 |
不需要,可以直接使用该Prompt或对其进行改写 |
|
自定义评分器 |
自己编写Prompt |
自定义场景,如风格判断、合规检查、逻辑校验 |
需要,根据实际情况进行编写 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
情感分析测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
情感分析测试 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“情感分析测试数据” |
|
评测维度 |
选择前面创建的“情感分析” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“情感分析测试”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
-
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“情感分析”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
40
通过率
Pass的样本占比
40%
得分明细-数据项分布
分类型评估维度的统计结果分布
评测集总量
测试数据总数
10条
已完成量
已评测完成的数量
10条
未完成量
未评测完成的数量
0条
自定义评测:规则评估-字符串匹配评测维度
适用场景:答案格式固定,需要精确匹配,如Function Calling、NL2SQL
使用建议:
-
预处理规范化:统一大小写、去除首尾空格
-
对于同义词,建议改用文本相似度评分器
-
先用小样本测试匹配规则是否符合预期
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
Function Calling验证 |
|
描述 |
检查模型是否正确调用了指定函数 |
|
类型 |
选择规则评估-字符串匹配 |
|
匹配规则 |
选择包含 |
|
文本对比 |
左侧: 左侧文本框填写模型输出变量,右侧填写参考答案变量 |
匹配规则如何选择:
|
规则 |
行为描述 |
典型应用 |
|
相等 |
完全相同(忽略大小写) |
城市名称校验、固定答案 |
|
不相等 |
完全不同(忽略大小写) |
禁忌词排查 |
|
包含 |
包含给定字符串 |
关键词检查、必要信息验证 |
|
开头包含 |
以给定字符串开头 |
前缀校验、格式检查 |
|
结尾包含 |
以给定字符串结尾 |
后缀校验、结束符检查 |
评测数据示例:
{"prompt": "今天北京天气怎么样?","completion": "query_weather"}
如果匹配规则选择“包含”,当模型输出包含 query_weather 时,判定为Pass。
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
Function Calling测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
Function Calling测试 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“Function Calling测试数据” |
|
评测维度 |
选择前面创建的“Function Calling验证” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“Function Calling测试”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
-
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“Function Calling验证”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
2条
已完成量
已评测完成的数量
2条
未完成量
未评测完成的数量
0条
自定义评测:规则评估-文本相似度评测维度
适用场景:答案表述多样但含义相同的场景,如翻译、摘要、改写
使用建议:
-
先在小样本上测试,观察通过率分布,再调整阈值
-
关注词序和精确匹配 → 选择BLEU
-
关注语义理解 → 选择Cosine
-
需要容错 → 选择Fuzzy Match
-
关注关键信息覆盖 → 选择ROUGE-L
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
翻译质量 |
|
描述 |
评估中译英的质量 |
|
类型 |
选择规则评估-文本相似度 |
|
相似度算法 |
选择BLEU_4 |
|
文本对比 |
左侧: 左侧文本框填写模型输出变量,右侧填写参考答案变量 |
|
通过阈值 |
设定为0.4,相似度≥0.4判定为Pass,范围0~1 |
相似度算法如何选择:
|
算法 |
特点 |
最佳场景 |
阈值建议 |
|
ROUGE-L |
基于最长公共子序列 |
文本摘要 |
0.4-0.6 |
|
BLEU |
基于n-gram精确匹配,对词序敏感 |
机器翻译 |
0.3-0.5 |
|
Cosine |
向量空间相似度,捕捉语义 |
开放问答、语义理解 |
0.6-0.8 |
|
Fuzzy Match |
基于编辑距离,容错性强 |
OCR、语音识别 |
0.7-0.9 |
|
Accuracy |
完全匹配 |
精确答案验证 |
1.0 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
中译英测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
翻译质量评测 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“中译英测试数据” |
|
评测维度 |
选择前面创建的“翻译质量” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“翻译质量评测”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页。
-
选择数据明细Tab,查看每条数据详细评分
列名
说明
状态
评测状态:待执行、进行中、评测完成、评测失败、评测终止
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“翻译质量”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
3条
已完成量
已评测完成的数量
3条
未完成量
未评测完成的数量
0条
自定义评测:人工评估-分类型评测维度
适用场景:需要人工主观判断的场景,如创意性评估、专业质量审核
使用建议:
-
当模型输出质量无法仅通过算法或裁判模型精确判断时,选用人工评估
-
在创建维度时将每个标签的判定标准写在外部《评测指南》,并培训标注员统一理解
-
标签设计要覆盖所有可能输出情况,并尽量使用简洁明确的分类词
-
建议多名评分员交叉标注部分样本,检验一致性
-
避免一次标注过多数据,分批进行以降低疲劳影响
操作步骤:
1. 创建评测维度
界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮
填写表单点击保存按钮
|
项目 |
填写内容 |
|
维度名称 |
内容创意性 |
|
描述 |
评估内容创意性 |
|
类型 |
选择人工评估-分类型 |
|
Pass |
创建“优秀”和“良好”两个标签 |
|
Fail |
创建“一般”和“较差”两个标签 |
2. 准备测试数据
界面位置:进入数据管理页面,点击右上角新增数据集按钮
填写表单并点击确认按钮
|
项目 |
填写内容 |
|
数据集名称 |
内容创意性测试数据 |
|
数据集类型 |
选择评测集类型 重要
模型评测只能使用评测集类型的数据集,不支持训练集 |
|
上传文件 |
Completion留空,让模型生成 |
3. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
内容创意评测 |
|
评测方式 |
选择自定义评测 |
|
评测模型 |
选择千问-Max |
|
System Prompt |
留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别 |
|
数据来源 |
选择评测数据集,数据集选择前面创建的“内容创意性测试数据” |
|
评测维度 |
选择前面创建的“内容创意性” |
|
是否参与排行 |
本次测试不参与 |
4. 查看任务状态
找到任务“内容创意评测”,查看评测状态列,为进行中状态。人工评估必须手动标注,系统不会自动评分,单击任务名称列,进入详情页。
-
选择数据明细Tab,在操作列点击标注按钮进行人工标注,所有数据标注完成后,任务的评测状态才会变为评测完成
列名
说明
状态
评测状态:进行中
序号
样本编号
Prompt
原始问题
Completion
参考答案
Output
模型生成的回答
[评测维度名称]
和评测维度相同,本次评测维度名称为“内容创意评测”,本列表示分析结果
操作
用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果
-
选择指标统计Tab,查看评测统计
指标名称
说明
示例值
综合得分
评测维度的平均分
100
得分明细-数据项分布
分类型评估维度的统计结果分布
通过率
Pass的样本占比
100%
评测集总量
测试数据总数
3条
已完成量
已评测完成的数量
3条
未完成量
未评测完成的数量
0条
使用排行榜对比多个模型
适用场景:需要对比多个模型在相同评测维度下的表现,通过排行榜直观查看模型排名
使用建议:
-
对比同一系列不同规格的模型(如 qwen-max、qwen-plus、qwen-turbo)
-
对比不同供应商的模型(如千问 vs DeepSeek)
-
对比同一模型的不同版本或配置
前提条件:已创建自定义评测维度
操作步骤:
1. 创建排行榜
界面位置:进入模型评测页面,选择排行榜Tab,点击右上角创建排行榜按钮
填写表单点击确定按钮
|
项目 |
填写内容 |
|
排行榜名称 |
常识问答准确性排行榜 |
|
评测维度 |
选择已创建的评测维度,例如常识问答准确性 |
|
关联可选任务 |
可在此时选择已有评测任务,或在下一步添加评测任务 |
说明:
-
每个排行榜最多支持50个评测任务
-
排行榜创建后,评测维度不可修改
-
同一个排行榜内的所有任务使用相同的评测维度,确保对比的公平性
2. 添加评测任务到排行榜
界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页
排行榜支持两种方式添加评测任务:
方式一:创建新任务
-
在排行榜详情页点击 添加评测任务 按钮
-
点击 创建新任务
-
系统自动跳转到任务创建页面,并自动关联排行榜:
-
是否参与排行:自动勾选且锁定,无法取消
-
排行榜:自动填充当前排行榜名称且锁定
-
评测维度:自动填充排行榜关联的评测维度且锁定
-
-
填写其他必填项:
-
任务名称:输入任务名称,建议包含模型信息便于识别
-
评测模型:选择要评测的模型
-
数据来源:选择评测数据集
-
-
点击 开始评测 按钮
方式二:选择已有任务
-
在排行榜详情页点击 添加评测任务 按钮
-
点击 选择已有任务
-
从已完成的评测任务中选择要加入排行榜的任务
-
点击 确定 按钮
注意:
-
只有使用相同评测维度的已完成任务才能加入排行榜
-
建议使用相同的评测数据集以确保对比结果的准确性
3. 查看排行榜结果
界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页
排行榜详情页展示以下信息:
|
列名 |
说明 |
|
排名 |
根据排行榜得分自动计算排名,得分高的排名靠前 |
|
任务名称 |
评测任务的名称 |
|
评测模型 |
任务使用的模型名称 |
|
排行榜得分 |
该任务在当前评测维度下的综合得分,范围0~100 |
|
[评测维度名称] |
显示该维度的具体评分,例如“语义相似度”维度显示平均相似度分数 |
|
操作 |
删除任务(将任务从排行榜移除,不影响任务本身) |
说明:
-
排行榜得分会随着任务评测进度实时更新
-
评测进行中的任务得分列显示“-”
-
点击任务名称可查看该任务的详细评测数据
基线评测
适用场景:使用行业标准数据集快速验证模型通用能力(学科知识、数学推理、科学常识等)
操作步骤:
1. 创建评测任务
界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮
填写表单并点击开始评测按钮
|
项目 |
填写内容 |
|
任务名称 |
基线评测 |
|
评测方式 |
选择基线评测 |
|
选择模型 |
选择要评测的模型 |
|
选择评测数据 |
选择系统预设的评测数据(参见评测数据) |
2. 查看任务状态
找到任务“基线评测”,查看评测状态列:
-
待执行:在请求高峰时段,评测任务需要排队等待执行
-
进行中:系统正在评测,请耐心等待
-
评测完成:评测已完成,可以查看结果
-
评测失败:评测任务执行失败
-
评测终止:评测任务被人工手动终止
点击页面右上角刷新按钮(
),当任务状态变为评测完成后,单击任务名称列,进入详情页查看。
进阶技巧
评测维度设计最佳实践
单一职责:
-
每个评测维度只关注一个评测目标
-
避免混合多个标准
-
例如:不要在"准确性"维度中同时考核"流畅性"
量化标准:
-
尽量使用客观、可量化的标准
-
减少主观性
-
为每个分数档提供明确的判定条件
迭代优化:
-
根据评测结果反馈,持续优化Prompt
-
定期人工抽查,验证评测准确性
-
对比人工评分和AI评分,调整评测标准
Prompt编写技巧
请前往阿里云百炼的Prompt最佳实践和插件学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。
成本优化建议
合理选择评测方式:
-
规则评估成本最低,适合格式化输出验证
-
大模型评估成本较高,用于需要语义理解的场景
-
人工评估成本最高,仅用于必须人工判断的情况
使用推理结果集:
-
对于需要频繁评测的基准模型,将其输出保存为推理结果集
-
避免重复调用模型,降低推理成本
分阶段评测:
-
先用小规模数据集(50-100条)验证配置
-
确认配置正确后,再扩大到200-500条
批量评测:
-
一次评测多个模型,提高效率
-
在同一个评测任务中选择多个模型
评测结果分析方法
关注分数分布:
-
查看各分数档的样本数量
-
识别分数集中的问题(如全部集中在3分)
-
调整评分标准或阈值
分析典型样本:
-
查看高分样本:了解模型优势
-
查看低分样本:识别模型不足
-
查看边界样本:优化评测标准
对比不同模型:
-
不要只看总分,要看不同场景下的表现
-
识别各模型的强项和弱项
-
根据业务优先级选择合适的模型
追踪模型迭代:
-
建立定期评测机制
-
记录每次调优后的评测结果
-
分析调优方向是否正确
常见问题排查
评测结果不符合预期:
-
检查测试数据是否代表业务场景
-
审查评测维度的Prompt是否清晰
-
尝试调整评分范围和阈值
-
考虑更换裁判模型或评分器模板
评分过于集中:
-
评分标准过于宽泛 → 细化每个分数档的描述
-
测试数据缺乏多样性 → 增加边界和异常样本
-
裁判模型倾向保守 → 更换推理能力更强的模型
不同评测维度结果冲突:
-
这很正常,说明模型在不同维度有不同表现
-
根据业务优先级,赋予不同维度不同权重
-
不要只看单一维度,要综合决策
如果模型输出频繁出现以下缺陷,建议您考虑引入知识库:
-
模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)
-
模型的输出和参考答案部分相关(模型有背景知识但已过时)
计费说明
模型评测的费用主要来自两部分:被评测模型的推理费用和裁判模型的评分费用(限时免费)。
被评测模型的推理费用
|
模型类型 |
是否计费 |
计费说明 |
|
预置模型(如qwen-max、qwen-plus等) |
|
按Token消耗量计费 |
|
独立部署的模型(调优后部署) |
|
不额外计费 |
被评测模型计费公式:
输入Token包含:
-
System Prompt(如果配置了)
-
评测数据中的Prompt(用户问题)
输出Token包含:
-
模型生成的回答(Output)
裁判模型的评分费用(限时免费)
仅大模型评估(数值型、分类型)涉及到裁判模型的使用。
完整费用计算示例
场景:使用qwen-plus评测100条数据,采用大模型评估-数值型,裁判模型为qwen-max
假设:
-
每条Prompt平均50 Token
-
每条模型Output平均200 Token
-
每条评分器Prompt平均500 Token(包含评分标准)
-
每条裁判模型输出平均5 Token
费用计算:
-
被评测模型(qwen-plus)费用:
-
输入:100条 × 50 Token = 5,000 Token
-
输出:100条 × 200 Token = 20,000 Token
-
假设qwen-plus价格:输入¥0.002/1K Token,输出¥0.006/1K Token
-
费用 = 5,000/1000 × 0.002 + 20,000/1000 × 0.006 = ¥0.01 + ¥0.12 = ¥0.13
-
-
裁判模型(qwen-max)费用(限时免费):¥0
总费用 = ¥0.13 + ¥0 = ¥0.13
价格参考
最新价格:请参见模型列表
注意:
-
价格可能随时调整,请以控制台显示为准
-
部分模型可能有限时优惠活动
下一步
-
如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。
-
如果您不满意参评模型的效果,可以选择其他模型重新评测。您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。