模型评测(ModelEval)是PAI平台提供的模型评估工具,用于全面、高效地评估大语言模型在特定或通用场景下的表现。您可以使用权威公开数据集或自定义业务数据集,量化分析模型的各项能力,为模型选型、微调优化和版本迭代提供数据支持。
快速开始:5分钟完成首次模型评测
本节将引导您用最少的配置,完成一次最简单的评测任务:使用公开的 CMMLU 数据集评测通义千问 Qwen3-4B 模型。
登录PAI控制台,在左侧导航栏,选择 模型应用 > 模型评测(ModelEval)。
在模型评测页面,单击新建任务。
基础配置:可使用系统自动生成的任务名称和结果输出路径。
说明若工作空间未设置过OSS默认存储路径,请手动选择结果输出路径。
配置评测对象:
评测对象类型选择公共模型。
在公共模型下拉框中,搜索并选择
Qwen3-4B。
配置评测方式:
勾选公开数据集评测。
在数据集列表中,勾选CMMLU。
配置资源:
资源组类型选择公共资源组(按量付费),资源配置方法选择常规资源。
在资源规格下拉框中,选择一个GPU规格,例如
ecs.gn7i-c8g1.2xlarge(24 GB)。
提交任务:单击页面底部的确定。
任务提交后,页面将自动跳转至任务详情。等待任务状态变为已成功后,即可在评测报告页签了解Qwen3-4B模型在CMMLU数据集上的表现。
功能详解
配置评测对象
模型评测支持四种评测对象来源,您可以根据模型或服务的部署位置灵活选择。
评测对象类型 | 说明 | 适用场景 |
公共模型 | PAI平台Model Gallery中的模型 | 快速评估主流开源大模型效果 |
自定义模型 | 在注册的自定义模型 重要 请确保vLLM框架可兼容该模型。 | 评估经过微调或定制的模型 |
PAI-EAS服务 | 已部署的PAI-EAS在线推理服务 | 评估生产环境中的模型服务 |
自定义服务 | 任意符合OpenAI接口规范的模型服务 | 评估第三方或自建模型服务 |
配置评测方式
您可以选择使用自定义数据集、公开数据集,或两者结合进行评测。
自定义数据集评测
使用您自己的数据集进行评测,最贴近实际业务场景。
数据集格式:必须是 JSONL 格式,UTF-8编码,每行一个JSON对象。
数据集上传:将准备好的数据集文件上传到 OSS,并在配置页面填写其OSS路径。
评测方法 | 通用指标评测 | 裁判员模型评测 |
用途 | 当您有明确的标准答案时,用于计算模型输出与标准答案的文本相似度。适用于翻译、摘要、知识库问答等任务。 | 当问题没有唯一标准答案时(如开放式对话、内容创作),借助一个强大的“裁判员模型”来对模型的回答质量进行打分。 |
数据集格式 | JSON对象中必须包含 | JSON对象中可以仅包含 |
核心指标 |
| 系统会将 |
公开数据集评测
使用业界公认的权威数据集进行评测,便于将模型能力与行业基准进行对比。
用途:进行模型选型对比、发布前的基准测试、评估模型的通用能力。
配置:勾选公开数据集评测,并从列表中选择一个或多个数据集。
支持的数据集:
LiveCodeBench:代码处理能力评测。
Math500:数学推理能力评测(500道高难度的数学竞赛题目)。
AIME25:数学推理能力评测(基于2025年美国数学邀请赛题目)。
AIME24:数学推理能力评测(基于2024年美国数学邀请赛题目)。
CMMLU: 中文多学科语言理解评测。
MMLU: 英文多学科语言理解评测。
C-Eval: 中文综合能力评估。
GSM8K: 数学推理能力评测。
HellaSwag: 常识推理能力评测。
TruthfulQA: 真实性评测。
任务管理
在模型评测页面,可以对评测任务进行生命周期管理。
查看报告:对于状态为 已成功 的任务,单击此按钮可查看详细评测报告。
对比:勾选2至5个已成功的任务,单击对比按钮,可以并排比较它们在各项指标上的表现。
停止:对于 运行中 的任务,可以手动停止。此操作不可逆,任务无法恢复执行,已消耗的计算资源不会退还。
删除:删除任务记录。此操作不可恢复。