模型评测

更新时间:
复制为 MD 格式

基于数据集对模型进行多维度评测有助于您全面了解其表现,从而确保模型在未来实际应用中能够提供有效的结果。

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

快速开始

什么是模型评测

模型评测是百炼平台提供的模型质量验证工具,帮助您客观、量化地评估大语言模型的表现。

一句话总结:给模型出一套测试题,自动或人工打分,最后生成评测报告。

为什么要做模型评测

场景1:模型选型决策

问题:面对十几个大模型(通义千问、GPT、Claude、文心一言等),不知道哪个更适合我的业务。

解决方案

  1. 准备100条业务场景的测试数据

  2. 用相同数据评测所有候选模型

  3. 对比评测报告(得分、通过率、典型样本表现)

  4. 选择最符合业务需求的模型

价值

  • 避免主观判断,用数据说话

  • 节省人工逐个测试的时间

  • 降低选型错误的风险

场景2:模型调优效果验证

问题:对通义千问进行了模型调优(提供了1000条训练数据),不确定调优是否真的有效。

解决方案

  1. 准备评测数据集(与训练集不重叠)

  2. 分别评测调优前和调优后的模型

  3. 对比两次评测结果:

    • 调优前得分:75

    • 调优后得分:85

    • 结论:调优有效,提升了10

价值

  • 量化调优效果,验证投入是否值得

  • 识别调优方向是否正确

  • 为持续优化提供数据支持

场景3:模型能力量化评估

问题:需要向团队或管理层汇报模型在特定任务上的表现,但缺少客观数据。

解决方案

  1. 使用评测功能生成评测报告

  2. 报告包含:

    • 综合得分:85/100

    • 通过率:90%(达到3分阈值的样本占比)

    • 分数分布:530条、440条、320条、210

    • 典型案例:高分样本、低分样本

  3. 用报告数据支撑决策和汇报

价值

  • 用数据替代主观描述("还不错" → "得分85分,通过率90%")

  • 便于跨团队沟通和对齐认知

  • 为后续优化提供基线参考

场景4:持续监控模型表现

问题:模型上线后,随着时间推移或业务变化,模型表现可能下降,但很难及时发现。

解决方案

  1. 建立定期评测机制(如每月一次)

  2. 使用相同的评测数据集和评测维度

  3. 追踪模型表现趋势:

    • 20241月:得分85

    • 20242月:得分87(提升)

    • 20243月:得分78(下降,需要排查)

价值

  • 及时发现模型表现下降

  • 为模型迭代提供数据依据

  • 建立模型能力档案

核心价值总结

价值

说明

客观量化

用数据替代主观判断,避免“感觉还行”的模糊描述

高效对比

快速对比多个模型,节省人工测试时间

风险控制

上线前充分验证,降低模型选型错误的风险

持续优化

为模型调优和迭代提供量化的效果反馈

决策支持

为团队协作和管理层汇报提供数据支撑

一图看懂评测流程

image

快速体验

评测场景:评测通义千问-Max在常识问答任务中的准确性

完整案例:使用10条测试问题,评估模型回答的语义相似度

体验步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

常识问答准确性

描述

评估模型回答常识问题的准确性

类型

选择大模型评估-数值型

裁判模型

选择通义千问-Max

评分器模板

选择语义相似度

评分范围

保持默认0~5

通过阈值

3.0

相关说明

关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别

模板

说明

适用场景

是否需要自定义Prompt

综合评测 (默认)

系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度)

通用对话、客服场景

不需要,可以直接使用该Prompt或对其进行改写

语义相似度

系统预置模板,评估输出与参考答案的语义接近程度

问答系统、知识检索

不需要,可以直接使用该Prompt或对其进行改写

自定义评分器

自己编写Prompt

特定业务场景

需要,根据实际情况进行编写

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

问答测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_问答测试数据.xlsx

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

问答准确性测试

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“问答测试数据”

评测维度

选择前面创建的“常识问答准确性”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“问答准确性测试”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页。

  • 选择数据明细Tab,查看每条数据详细评分

    列名

    说明

    状态

    评测状态:待执行、进行中、评测完成、评测失败、评测终止

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    100

    通过率

    达到阈值(≥3分)的样本占比

    90%

    评测集总量

    测试数据总数

    10

    已完成量

    已评测完成的数量

    10

    未完成量

    未评测完成的数量

    0

核心概念

自定义评测和基线评测对比

对比维度

自定义评测

基线评测

适用场景

业务场景评测、自定义标准

模型通用能力验证(学科、数学、推理)

评测标准

自定义评测维度(5种类型)

使用预置评测规则

是否需要创建评测维度

必须创建

不需要

数据来源

参见自定义评测-评测数据

  • 评测数据集(自己准备)

  • 推理结果集(自己准备)

预置标准数据集(系统提供),参见基线评测-评测数据

数据格式

Excel(2~3列:Prompt、Completion、Output)

无需准备,直接选择

灵活性

高,可自定义一切

低,使用行业标准

评测流程

image

如何选择

  • 首次使用 / 业务场景评测:自定义评测(更灵活)

  • 调优后验证通用能力:基线评测(快速对比)

  • 最佳实践:两者结合使用

自定义评测

支持的模型

支持下列预置模型(包括基于它们调优后的模型):

  • 通义千问-QwQ/Max/Plus/Turbo/Coder/Math

  • 通义千问开源版(Qwen3、Qwen2.5、Qwen2、Qwen1.5)

  • 通义法睿

  • 第三方文本生成模型(abab6.5g、abab6.5t等)

上述列表并不完整且可能随时发生变化,请以创建评测任务页面中评测模型显示的列表为准。列表中灰色字体且无申请按钮的模型目前暂不支持评测。

评测维度

评测维度就是评分标准,决定了如何给模型打分。自定义评测必须先创建评测维度。

  • 评测维度类型(5种)

    类型

    评分方式

    适用场景

    成本

    推荐度

    大模型评估-数值型

    AI裁判打分(1-5分)

    问答质量、内容生成质量

    ⭐⭐⭐⭐⭐

    规则评估-文本相似度

    算法计算相似度

    翻译、摘要、改写

    ⭐⭐⭐⭐

    大模型评估-分类型

    AI裁判分类(Pass/Fail)

    内容安全、正确性判断

    ⭐⭐⭐

    规则评估-字符串匹配

    精确字符串匹配

    Function Calling、NL2SQL

    极低

    ⭐⭐⭐

    人工评估-分类型

    人工打标签

    创意性、专业判断

    ⭐⭐

  • 如何快速选择评测维度类型?

    一个评测任务可以组合多个评测维度。

    image

评测数据

  • 数据来源类型

    数据类型

    说明

    工作流程

    适用场景

    评测数据集

    包含问题(prompt)和参考答案(completion)

    系统调用模型实时推理 → 生成output → 评分器打分

    • 首次评测

    • 对比多个模型

    • 模型尚未生成结果

    推理结果集

    已包含模型输出(output)

    系统直接读取output → 评分器打分(不推理)

    • 模型已生成结果

    • 降低推理成本

    • 作为对照组的基准模型

  • 数据格式要求:Excel

  • 评测数据集示例

    Prompt

    Completion

    什么是云计算?

    云计算是按需提供的共享计算资源池

    Python如何定义函数?

    使用def关键字定义函数

  • 推理结果集示例

    多一列Output

    Prompt

    Completion

    Output

    什么是云计算?

    云计算是按需提供的共享计算资源池

    云计算是一种通过互联网提供计算资源的服务模式...

  • 数据量建议

    阶段

    建议数量

    说明

    小规模验证

    50~100

    验证配置是否正确

    正式评测

    200~500

    获得可靠的统计结果

    全面评估

    500+条

    覆盖各种边界情况

排行榜

什么是排行榜

  • 用于对比多个模型在同一评测维度上的表现

  • 可视化展示模型优劣排序

  • 支持多个评测任务的横向对比

何时需要排行榜

  • 需要对比多个模型的表现(如 GPT-4 vs Claude vs 通义千问)

  • 想要可视化展示模型在业务场景中的优劣

  • 需要在团队内部分享模型对比结果

核心变量

适用范围:本节仅适用于大模型评估-数值型大模型评估-分类型评测维度。

在大模型评估时,裁判模型会接收以下三个变量:

变量名

说明

示例

使用场景

${prompt}

原始输入:用户的问题或指令

什么是云计算?

所有场景都需要

${output}

模型输出:参评模型生成的回答

云计算是一种通过互联网...

所有场景都需要

${completion}

参考答案:标准答案或期望输出

云计算是按需提供的...

有标准答案时使用

如何在Prompt中使用:

请评估以下回答的质量:

**用户问题**:${prompt}
**模型回答**:${output}
**参考答案**:${completion}

评分标准:
- 5分:回答完全正确,与参考答案语义一致
- 4分:回答基本正确,有少量偏差
- 3分:回答部分正确
- 2分:回答大部分错误
- 1分:回答完全错误或答非所问

基线评测

支持的模型

基线评测仅支持调优后的模型不支持预置模型(如通义千问-Max)。

为什么只支持调优模型

  • 基线评测使用行业标准数据集(如 C-Eval、MMLU)评估模型能力

  • 主要用于验证模型调优后的效果提升

  • 可与业界其他模型对比

如何确认你的模型是否支持

  1. 进入创建评测任务页面

  2. 选择“基线评测”

  3. 查看“选择模型”下拉列表

  4. 如果列表为空,说明你还没有调优模型,需要先完成模型调优和部署(请参见模型部署简介

评测数据

基线评测无需准备评测数据,直接选择系统提供的数据:学科数学推理类的标准榜单(相应的评测集、评测逻辑、评测脚本与开源榜单数据保持一致,定期更新)。

学科用于评测模型在日常生活常识及学科知识方面的掌握情况。
数学用于评测模型解决基础数学问题的能力。
推理用于评测模型的中文自然语言推理能力,例如判断两个句子之间的逻辑关系(蕴含、矛盾)。

分类

评测数据

说明

学科

C-Eval

C-Eval 主要用于评估模型对中文文本的理解和应用能力,它包含了数学、物理、化学、历史、地理、文学等52个不同的学科超过13,000道测试题。

MMLU

MMLU 主要用于评估模型在广泛领域的知识掌握情况,它包含了STEM、人文学科、社会科学等57个学科超过57,000道测试题。

ARC

ARC 主要用于评估模型在运用多种学科知识进行深度复杂推理的能力,它包含了超过7,900道来自生物学、物理学、化学等学科的测试题。

数学

GSM8K

GSM8K 主要用于评估模型解决基础数学问题的能力,它包含了超过8,000个小学数学问题。

推理

HellaSwag

HellaSwag 主要用于评估模型在日常生活常识推理方面的能力,它包含了超过70,000道推理测试题。

BBH

BBH(Big-Bench Hard)主要用于评估模型的深度复杂推理和多步推理能力,它精选了来自 BIG-Bench 的23个具有挑战性的测试题,涵盖逻辑推理、语言理解和创造性思维等领域。

基线评测特有的报告内容

基线评测的结果报告与自定义评测不同,提供以下特有内容:

  1. 分学科得分明细(C-Eval 和 MMLU)

    可以查看模型在每个学科的得分,例如:

    • 计算机科学:85%

    • 法律:72%

    • 医学:68%

    • 数学:90%

  2. 能力雷达图

    可视化展示模型在不同维度的能力:

    • 知识掌握

    • 推理能力

    • 数学能力

    • 常识理解

  3. 行业对比

    将你的模型与业界标准模型对比:

    • GPT-4:XX

    • 你的模型:XX

    • Claude:XX

System Prompt和评分器Prompt的区别

在模型评测中,有两种容易混淆的Prompt配置,它们在不同环节发挥作用:

Prompt类型

配置位置

作用对象

作用阶段

是否必填

费用归属

System Prompt

创建评测任务

被评测模型

模型生成答案时

被评测模型推理费用

评分器Prompt

创建大模型评估-数值型大模型评估-分类型评测维度时

裁判模型

裁判模型给答案打分时

裁判模型评分费用

详细说明

  • System Prompt

    • 用途:为被评测模型设定角色定位或行为规范

    • 示例场景

      • 评测客服场景:“你是一位专业的客服人员,请礼貌、准确地回答客户问题。”

      • 评测代码助手:“你是一位编程专家,请提供准确、简洁的代码示例。”

    • 何时使用:仅在需要给被评测模型设定特定身份或约束时填写,大多数情况下可以留空

  • 评分器Prompt

    • 用途:告诉裁判模型如何评判答案质量、评分标准是什么

    • 适用范围:仅大模型评估-数值型大模型评估-分类型评测维度需要配置

    • 配置方式

      • 选择系统预置模板(综合评测、语义相似度、情感分析等)

      • 自定义编写(适用于特定业务场景)

    • 核心变量:评分器Prompt中可使用 ${prompt}、${output}、${completion} 变量

形象比喻

  • System Prompt:告诉“学生”(被评测模型)考试时应该以什么身份答题

  • 评分器Prompt:告诉“阅卷老师”(裁判模型)如何批改试卷、打分标准是什么

分场景实践案例

自定义评测大模型评估-数值型评测维度

适用场景:需要细粒度评分的场景,如问答质量、内容生成质量、客服对话质量等

使用建议

  • 评分标准要具体化,为每个分数档提供清晰描述

  • 定期人工抽查高分和低分样本,验证准确性

  • 避免所有样本都集中在某个分数段

操作步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

常识问答准确性

描述

评估模型回答常识问题的准确性

类型

选择大模型评估-数值型

裁判模型

选择通义千问-Max

评分器模板

选择语义相似度

评分范围

保持默认0~5

通过阈值

3.0

相关说明

关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别

模板

说明

适用场景

是否需要自定义Prompt

综合评测 (默认)

系统预置模板,从5个维度评分(相关性、文化敏感性、信息丰富性、清晰性、用户参与度)

通用对话、客服场景

不需要,可以直接使用该Prompt或对其进行改写

语义相似度

系统预置模板,评估输出与参考答案的语义接近程度

问答系统、知识检索

不需要,可以直接使用该Prompt或对其进行改写

自定义评分器

自己编写Prompt

特定业务场景

需要,根据实际情况进行编写

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

问答测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_问答测试数据.xlsx

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

问答准确性测试

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“问答测试数据”

评测维度

选择前面创建的“常识问答准确性”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“问答准确性测试”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页。

  • 选择数据明细Tab,查看每条数据详细评分

    列名

    说明

    状态

    评测状态:待执行、进行中、评测完成、评测失败、评测终止

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“常识问答准确性”,本列表示评分结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    100

    通过率

    达到阈值(≥3分)的样本占比

    90%

    评测集总量

    测试数据总数

    10

    已完成量

    已评测完成的数量

    10

    未完成量

    未评测完成的数量

    0

自定义评测:大模型评估-分类型评测维度

适用场景:需要进行“是/否”、“通过/不通过”等正反判断的场景,如内容安全、答案正确性等

使用建议

  • Prompt中详细说明每个标签的判定条件

  • 明确要求裁判模型只输出标签名称

  • 定期人工抽检部分样本,确保准确性

操作步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

情感分析

描述

检测客户的情感

类型

选择大模型评估-分类型

裁判模型

选择通义千问-Max

评分器模板

选择情感分析

标签

不必修改,使用默认内容

相关说明

关于评分器模板的选择,界面上有3个单选按钮,可以选择其中一个(Prompt变量说明参见核心变量,和System Prompt的区别请参见System Prompt和评分器Prompt的区别

模板

说明

适用场景

是否需要自定义Prompt

标准匹配 (默认)

系统预置模板,判断模型输出是否与参考答案一致

分类标签、函数名、固定答案

不需要,可以直接使用该Prompt或对其进行改写

情感分析

系统预置模板,分析文本情感倾向(积极/中性/消极)

用户评论、客服对话、舆情监控

不需要,可以直接使用该Prompt或对其进行改写

自定义评分器

自己编写Prompt

自定义场景,如风格判断、合规检查、逻辑校验

需要,根据实际情况进行编写

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

情感分析测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_情感分析.xlsx

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

情感分析测试

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,和评分器Prompt的区别请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“情感分析测试数据”

评测维度

选择前面创建的“情感分析”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“情感分析测试”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页。

  • 选择数据明细Tab,查看每条数据详细评分

    列名

    说明

    状态

    评测状态:待执行、进行中、评测完成、评测失败、评测终止

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“情感分析”,本列表示分析结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    40

    通过率

    Pass的样本占比

    40%

    得分明细-数据项分布

    分类型评估维度的统计结果分布

    评测集总量

    测试数据总数

    10

    已完成量

    已评测完成的数量

    10

    未完成量

    未评测完成的数量

    0

自定义评测:规则评估-字符串匹配评测维度

适用场景:答案格式固定,需要精确匹配,如Function Calling、NL2SQL

使用建议

  • 预处理规范化:统一大小写、去除首尾空格

  • 对于同义词,建议改用文本相似度评分器

  • 先用小样本测试匹配规则是否符合预期

操作步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

Function Calling验证

描述

检查模型是否正确调用了指定函数

类型

选择规则评估-字符串匹配

匹配规则

选择包含

文本对比

左侧:${output}
右侧:${completion}

左侧文本框填写模型输出变量,右侧填写参考答案变量

匹配规则如何选择

规则

行为描述

典型应用

相等

完全相同(忽略大小写)

城市名称校验、固定答案

不相等

完全不同(忽略大小写)

禁忌词排查

包含

包含给定字符串

关键词检查、必要信息验证

开头包含

以给定字符串开头

前缀校验、格式检查

结尾包含

以给定字符串结尾

后缀校验、结束符检查

评测数据示例

{"prompt": "今天北京天气怎么样?","completion": "query_weather"}

如果匹配规则选择“包含”,当模型输出包含 query_weather 时,判定为Pass。

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

Function Calling测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_Function_Calling.xlsx

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

Function Calling测试

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“Function Calling测试数据”

评测维度

选择前面创建的“Function Calling验证”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“Function Calling测试”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页。

  • 选择数据明细Tab,查看每条数据详细评分

    列名

    说明

    状态

    评测状态:待执行、进行中、评测完成、评测失败、评测终止

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“Function Calling验证”,本列表示分析结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    100

    通过率

    Pass的样本占比

    100%

    评测集总量

    测试数据总数

    2

    已完成量

    已评测完成的数量

    2

    未完成量

    未评测完成的数量

    0

自定义评测:规则评估-文本相似度评测维度

适用场景:答案表述多样但含义相同的场景,如翻译、摘要、改写

使用建议

  • 先在小样本上测试,观察通过率分布,再调整阈值

  • 关注词序和精确匹配 → 选择BLEU

  • 关注语义理解 → 选择Cosine

  • 需要容错 → 选择Fuzzy Match

  • 关注关键信息覆盖 → 选择ROUGE-L

操作步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

翻译质量

描述

评估中译英的质量

类型

选择规则评估-文本相似度

相似度算法

选择BLEU_4

文本对比

左侧:${output}
右侧:${completion}

左侧文本框填写模型输出变量,右侧填写参考答案变量

通过阈值

设定为0.4,相似度≥0.4判定为Pass,范围0~1

相似度算法如何选择

算法

特点

最佳场景

阈值建议

ROUGE-L

基于最长公共子序列

文本摘要

0.4-0.6

BLEU

基于n-gram精确匹配,对词序敏感

机器翻译

0.3-0.5

Cosine

向量空间相似度,捕捉语义

开放问答、语义理解

0.6-0.8

Fuzzy Match

基于编辑距离,容错性强

OCR、语音识别

0.7-0.9

Accuracy

完全匹配

精确答案验证

1.0

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

中译英测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_中译英.xlsx

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

翻译质量评测

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“中译英测试数据”

评测维度

选择前面创建的“翻译质量”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“翻译质量评测”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页。

  • 选择数据明细Tab,查看每条数据详细评分

    列名

    说明

    状态

    评测状态:待执行、进行中、评测完成、评测失败、评测终止

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“翻译质量”,本列表示分析结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    100

    通过率

    Pass的样本占比

    100%

    评测集总量

    测试数据总数

    3

    已完成量

    已评测完成的数量

    3

    未完成量

    未评测完成的数量

    0

自定义评测:人工评估-分类型评测维度

适用场景:需要人工主观判断的场景,如创意性评估、专业质量审核

使用建议

  • 当模型输出质量无法仅通过算法或裁判模型精确判断时,选用人工评估

  • 在创建维度时将每个标签的判定标准写在外部《评测指南》,并培训标注员统一理解

  • 标签设计要覆盖所有可能输出情况,并尽量使用简洁明确的分类词

  • 建议多名评分员交叉标注部分样本,检验一致性

  • 避免一次标注过多数据,分批进行以降低疲劳影响

操作步骤

1. 创建评测维度

界面位置:进入模型评测页面,选择评测维度Tab,点击右上角创建评测维度按钮

填写表单点击保存按钮

项目

填写内容

维度名称

内容创意性

描述

评估内容创意性

类型

选择人工评估-分类型

Pass

创建“优秀”和“良好”两个标签

Fail

创建“一般”和“较差”两个标签

2. 准备测试数据

界面位置:进入数据管理页面,点击右上角新增数据集按钮

填写表单并点击确认按钮

项目

填写内容

数据集名称

内容创意性测试数据

数据集类型

选择评测集类型

重要

模型评测只能使用评测集类型的数据集,不支持训练集

上传文件

上传案例数据_内容创意性.xlsx

Completion留空,让模型生成

3. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

内容创意评测

评测方式

选择自定义评测

评测模型

选择通义千问-Max

System Prompt

留空,本次测试不需要,更多说明请参见System Prompt和评分器Prompt的区别

数据来源

选择评测数据集,数据集选择前面创建的“内容创意性测试数据”

评测维度

选择前面创建的“内容创意性”

是否参与排行

本次测试不参与

4. 查看任务状态

找到任务“内容创意评测”,查看评测状态列,为进行中状态。人工评估必须手动标注,系统不会自动评分,单击任务名称列,进入详情页。

  • 选择数据明细Tab,在操作列点击标注按钮进行人工标注,所有数据标注完成后,任务的评测状态才会变为评测完成

    列名

    说明

    状态

    评测状态:进行中

    序号

    样本编号

    Prompt

    原始问题

    Completion

    参考答案

    Output

    模型生成的回答

    [评测维度名称]

    和评测维度相同,本次评测维度名称为“内容创意评测”,本列表示分析结果

    操作

    用户可执行的操作,例如点击详情按钮,查看完整的问题、答案和评测结果

  • 选择指标统计Tab,查看评测统计

    指标名称

    说明

    示例值

    综合得分

    评测维度的平均分

    100

    得分明细-数据项分布

    分类型评估维度的统计结果分布

    通过率

    Pass的样本占比

    100%

    评测集总量

    测试数据总数

    3

    已完成量

    已评测完成的数量

    3

    未完成量

    未评测完成的数量

    0

使用排行榜对比多个模型

适用场景:需要对比多个模型在相同评测维度下的表现,通过排行榜直观查看模型排名

使用建议

  • 对比同一系列不同规格的模型(如 qwen-max、qwen-plus、qwen-turbo)

  • 对比不同供应商的模型(如通义千问 vs DeepSeek)

  • 对比同一模型的不同版本或配置

前提条件:已创建自定义评测维度

操作步骤

1. 创建排行榜

界面位置:进入模型评测页面,选择排行榜Tab,点击右上角创建排行榜按钮

填写表单点击确定按钮

项目

填写内容

排行榜名称

常识问答准确性排行榜

评测维度

选择已创建的评测维度,例如常识问答准确性

关联可选任务

可在此时选择已有评测任务,或在下一步添加评测任务

说明

  • 每个排行榜最多支持50个评测任务

  • 排行榜创建后,评测维度不可修改

  • 同一个排行榜内的所有任务使用相同的评测维度,确保对比的公平性

2. 添加评测任务到排行榜

界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页

排行榜支持两种方式添加评测任务

方式一:创建新任务

  1. 在排行榜详情页点击 添加评测任务 按钮

  2. 点击 创建新任务

  3. 系统自动跳转到任务创建页面,并自动关联排行榜:

    • 是否参与排行:自动勾选且锁定,无法取消

    • 排行榜:自动填充当前排行榜名称且锁定

    • 评测维度:自动填充排行榜关联的评测维度且锁定

  4. 填写其他必填项:

    • 任务名称:输入任务名称,建议包含模型信息便于识别

    • 评测模型:选择要评测的模型

    • 数据来源:选择评测数据集

  5. 点击 开始评测 按钮

方式二:选择已有任务

  1. 在排行榜详情页点击 添加评测任务 按钮

  2. 点击 选择已有任务

  3. 从已完成的评测任务中选择要加入排行榜的任务

  4. 点击 确定 按钮

注意

  • 只有使用相同评测维度的已完成任务才能加入排行榜

  • 建议使用相同的评测数据集以确保对比结果的准确性

3. 查看排行榜结果

界面位置:进入模型评测页面,选择排行榜Tab,点击排行榜名称进入详情页

排行榜详情页展示以下信息:

列名

说明

排名

根据排行榜得分自动计算排名,得分高的排名靠前

任务名称

评测任务的名称

评测模型

任务使用的模型名称

排行榜得分

该任务在当前评测维度下的综合得分,范围0~100

[评测维度名称]

显示该维度的具体评分,例如“语义相似度”维度显示平均相似度分数

操作

删除任务(将任务从排行榜移除,不影响任务本身)

说明

  • 排行榜得分会随着任务评测进度实时更新

  • 评测进行中的任务得分列显示“-”

  • 点击任务名称可查看该任务的详细评测数据

基线评测

适用场景:使用行业标准数据集快速验证模型通用能力(学科知识、数学推理、科学常识等)

操作步骤

1. 创建评测任务

界面位置:进入模型评测页面,选择评测任务Tab,点击右上角创建评测任务按钮

填写表单并点击开始评测按钮

项目

填写内容

任务名称

基线评测

评测方式

选择基线评测

选择模型

选择要评测的模型

选择评测数据

选择系统预设的评测数据(参见评测数据

2. 查看任务状态

找到任务“基线评测”,查看评测状态列:

  • 待执行:在请求高峰时段,评测任务需要排队等待执行

  • 进行中:系统正在评测,请耐心等待

  • 评测完成:评测已完成,可以查看结果

  • 评测失败:评测任务执行失败

  • 评测终止:评测任务被人工手动终止

点击页面右上角刷新按钮(image),当任务状态变为评测完成后,单击任务名称列,进入详情页查看。

进阶技巧

评测维度设计最佳实践

单一职责

  • 每个评测维度只关注一个评测目标

  • 避免混合多个标准

  • 例如:不要在"准确性"维度中同时考核"流畅性"

量化标准

  • 尽量使用客观、可量化的标准

  • 减少主观性

  • 为每个分数档提供明确的判定条件

迭代优化

  • 根据评测结果反馈,持续优化Prompt

  • 定期人工抽查,验证评测准确性

  • 对比人工评分和AI评分,调整评测标准


Prompt编写技巧

请前往阿里云百炼的Prompt最佳实践插件学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。

成本优化建议

合理选择评测方式

  • 规则评估成本最低,适合格式化输出验证

  • 大模型评估成本较高,用于需要语义理解的场景

  • 人工评估成本最高,仅用于必须人工判断的情况

使用推理结果集

  • 对于需要频繁评测的基准模型,将其输出保存为推理结果集

  • 避免重复调用模型,降低推理成本

分阶段评测

  • 先用小规模数据集(50-100条)验证配置

  • 确认配置正确后,再扩大到200-500

批量评测

  • 一次评测多个模型,提高效率

  • 在同一个评测任务中选择多个模型

评测结果分析方法

关注分数分布

  • 查看各分数档的样本数量

  • 识别分数集中的问题(如全部集中在3分)

  • 调整评分标准或阈值

分析典型样本

  • 查看高分样本:了解模型优势

  • 查看低分样本:识别模型不足

  • 查看边界样本:优化评测标准

对比不同模型

  • 不要只看总分,要看不同场景下的表现

  • 识别各模型的强项和弱项

  • 根据业务优先级选择合适的模型

追踪模型迭代

  • 建立定期评测机制

  • 记录每次调优后的评测结果

  • 分析调优方向是否正确

常见问题排查

评测结果不符合预期

  1. 检查测试数据是否代表业务场景

  2. 审查评测维度的Prompt是否清晰

  3. 尝试调整评分范围和阈值

  4. 考虑更换裁判模型或评分器模板

评分过于集中

  1. 评分标准过于宽泛 → 细化每个分数档的描述

  2. 测试数据缺乏多样性 → 增加边界和异常样本

  3. 裁判模型倾向保守 → 更换推理能力更强的模型

不同评测维度结果冲突

  1. 这很正常,说明模型在不同维度有不同表现

  2. 根据业务优先级,赋予不同维度不同权重

  3. 不要只看单一维度,要综合决策

如果模型输出频繁出现以下缺陷,建议您考虑引入知识库

  • 模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)

  • 模型的输出和参考答案部分相关(模型有背景知识但已过时)

计费说明

模型评测的费用主要来自两部分:被评测模型的推理费用裁判模型的评分费用(限时免费)

被评测模型的推理费用

模型类型

是否计费

计费说明

预置模型(如qwen-max、qwen-plus等)

支持

Token消耗量计费

独立部署的模型(调优后部署)

不支持

不额外计费

被评测模型计费公式

输入Token包含

  • System Prompt(如果配置了)

  • 评测数据中的Prompt(用户问题)

输出Token包含

  • 模型生成的回答(Output)

裁判模型的评分费用(限时免费)

大模型评估(数值型、分类型)涉及到裁判模型的使用。

完整费用计算示例

场景:使用qwen-plus评测100条数据,采用大模型评估-数值型,裁判模型为qwen-max

假设

  • 每条Prompt平均50 Token

  • 每条模型Output平均200 Token

  • 每条评分器Prompt平均500 Token(包含评分标准)

  • 每条裁判模型输出平均5 Token

费用计算

  1. 被评测模型(qwen-plus)费用

    • 输入:100条 × 50 Token = 5,000 Token

    • 输出:100条 × 200 Token = 20,000 Token

    • 假设qwen-plus价格:输入¥0.002/1K Token,输出¥0.006/1K Token

    • 费用 = 5,000/1000 × 0.002 + 20,000/1000 × 0.006 = ¥0.01 + ¥0.12 = ¥0.13

  2. 裁判模型(qwen-max)费用(限时免费):¥0

总费用 = ¥0.13 + ¥0 = ¥0.13

价格参考

最新价格:请参见模型列表

注意

  • 价格可能随时调整,请以控制台显示为准

  • 部分模型可能有限时优惠活动

下一步

  • 如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。

  • 如果您不满意参评模型的效果,可以选择其他模型重新评测。您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。