模型评测(ModelEval)

模型评测(ModelEval)是PAI平台提供的模型评估工具,用于全面、高效地评估大语言模型在特定或通用场景下的表现。您可以使用权威公开数据集或自定义业务数据集,量化分析模型的各项能力,为模型选型、微调优化和版本迭代提供数据支持。

快速开始:5分钟完成首次模型评测

本节将引导您用最少的配置,完成一次最简单的评测任务:使用公开的 CMMLU 数据集评测通义千问 Qwen3-4B 模型。

  1. 登录PAI控制台,在左侧导航栏,选择 模型应用 > 模型评测(ModelEval)

  2. 在模型评测页面,单击新建任务

  3. 基础配置:可使用系统自动生成的任务名称结果输出路径

    说明

    若工作空间未设置过OSS默认存储路径,请手动选择结果输出路径。

  4. 配置评测对象

    • 评测对象类型选择公共模型

    • 公共模型下拉框中,搜索并选择 Qwen3-4B

  5. 配置评测方式

    • 勾选公开数据集评测

    • 在数据集列表中,勾选CMMLU

  6. 配置资源

    • 资源组类型选择公共资源组(按量付费)资源配置方法选择常规资源

    • 资源规格下拉框中,选择一个GPU规格,例如 ecs.gn7i-c8g1.2xlarge (24 GB)。

  7. 提交任务:单击页面底部的确定

任务提交后,页面将自动跳转至任务详情。等待任务状态变为已成功后,即可在评测报告页签了解Qwen3-4B模型在CMMLU数据集上的表现。

功能详解

配置评测对象

模型评测支持四种评测对象来源,您可以根据模型或服务的部署位置灵活选择。

评测对象类型

说明

适用场景

公共模型

PAI平台Model Gallery中的模型

快速评估主流开源大模型效果

自定义模型

AI资产管理 > 模型注册的自定义模型

重要

请确保vLLM框架可兼容该模型。

评估经过微调或定制的模型

PAI-EAS服务

已部署的PAI-EAS在线推理服务

评估生产环境中的模型服务

自定义服务

任意符合OpenAI接口规范的模型服务

评估第三方或自建模型服务

配置评测方式

您可以选择使用自定义数据集、公开数据集,或两者结合进行评测。

自定义数据集评测

使用您自己的数据集进行评测,最贴近实际业务场景。

  • 数据集格式:必须是 JSONL 格式,UTF-8编码,每行一个JSON对象。

  • 数据集上传:将准备好的数据集文件上传到 OSS,并在配置页面填写其OSS路径。

评测方法

通用指标评测
裁判员模型评测

用途

当您有明确的标准答案时,用于计算模型输出与标准答案的文本相似度。适用于翻译、摘要、知识库问答等任务。

当问题没有唯一标准答案时(如开放式对话、内容创作),借助一个强大的“裁判员模型”来对模型的回答质量进行打分。

数据集格式

JSON对象中必须包含 question(问题)和 answer(标准答案)两个字段。

{"question": "中国的首都是哪里?", "answer": "北京"}

JSON对象中可以仅包含 question(问题)字段,也可以提供answer(标准答案)字段。

{"question": "请介绍一下人工智能的发展历程"}

核心指标

  • ROUGE (ROUGE-1, ROUGE-2, ROUGE-L):基于召回率,衡量模型输出覆盖了多少标准答案中的信息点。

  • BLEU (BLEU-1, BLEU-2,BLEU-3, BLEU-4):基于精确率,衡量模型输出中有多少内容是准确的。

系统会将 question 和被评测模型的输出,一同发送给裁判员模型,由其从相关性、准确性、流畅性等多个维度进行综合评分。

公开数据集评测

使用业界公认的权威数据集进行评测,便于将模型能力与行业基准进行对比。

  • 用途:进行模型选型对比、发布前的基准测试、评估模型的通用能力。

  • 配置:勾选公开数据集评测,并从列表中选择一个或多个数据集。

  • 支持的数据集

    • LiveCodeBench:代码处理能力评测。

    • Math500:数学推理能力评测(500道高难度的数学竞赛题目)。

    • AIME25:数学推理能力评测(基于2025年美国数学邀请赛题目)。

    • AIME24:数学推理能力评测(基于2024年美国数学邀请赛题目)。

    • CMMLU: 中文多学科语言理解评测。

    • MMLU: 英文多学科语言理解评测。

    • C-Eval: 中文综合能力评估。

    • GSM8K: 数学推理能力评测。

    • HellaSwag: 常识推理能力评测。

    • TruthfulQA: 真实性评测。

任务管理

在模型评测页面,可以对评测任务进行生命周期管理。

  • 查看报告:对于状态为 已成功 的任务,单击此按钮可查看详细评测报告。

  • 对比:勾选25个已成功的任务,单击对比按钮,可以并排比较它们在各项指标上的表现。

  • 停止:对于 运行中 的任务,可以手动停止。此操作不可逆,任务无法恢复执行,已消耗的计算资源不会退还。

  • 删除:删除任务记录。此操作不可恢复。