大模型评测最佳实践

在大模型时代,模型评测是衡量性能、精选和优化模型的关键环节,对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景,如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型,如何实现更全面准确且具有针对性的模型评测,从而在AI领域可以更好地取得成就。

背景信息

内容简介

在大模型时代,随着模型效果的显著提升,模型评测的重要性日益凸显。科学、高效的模型评测,不仅能帮助开发者有效地衡量和对比不同模型的性能,更能指导他们进行精准地模型选择和优化,加速AI创新和应用落地。因此,建立一套平台化的大模型评测最佳实践愈发重要。

本文为PAI大模型评测最佳实践,旨在指引AI开发人员使用PAI平台进行大模型评测。借助本文,您可以轻松构建出既能反映模型真实性能,又能满足行业特定需求的评测过程,助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容:

  • 如何准备和选择评测数据集

  • 如何选择适合业务的开源或微调后模型

  • 如何创建评测任务并选择合适的评价指标

  • 如何在单任务或多任务场景下解读评测结果

平台特点

PAI大模型评测平台,适合您针对不同的大模型评测场景,进行模型效果对比。例如:

  • 不同基础模型对比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • 同一模型不同微调版本对比:Qwen2-7B-Instruct 在私有领域数据下训练不同epoch版本效果对比

  • 同一模型不同量化版本对比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考虑到不同开发群体的特定需求,本文将以企业开发者算法研究人员两个典型群体为例,探讨如何结合企业的自定义数据集与常用的公开数据集(如MMLU、C-Eval等),实现更全面准确并具有针对性的模型评测,查找适合您业务需求的大模型。本实践特点如下:

  • 端到端完整评测链路,无需代码开发,支持主流开源大模型,与大模型微调后的一键评测。

  • 支持用户自定义数据集上传,内置10+通用NLP评测指标,一览式结果展示,无需再开发评测脚本。

  • 支持多个领域的常用公开数据集评测,完整还原官方评测方法,雷达图全景展示,省去逐个下载评测集和熟悉评测流程的繁杂。

  • 支持多模型多任务同时评测,评测结果图表式对比展示,辅以单条评测结果详情,方便全方位比较分析。

  • 评测过程公开透明,结果可复现。评测代码开源在与ModelScope共建的开源代码库eval-scope中,方便查看细节与复现评测结果。

计费说明

  • PAI大模型评测依托于PAI-快速开始产品。快速开始本身不收费,但使用快速开始进行模型评测时,可能产生DLC评测任务费用,计费详情请参见分布式训练(DLC)计费说明

  • 如果选择自定义数据集评测,使用OSS存储时会产生相关费用,计费详情请参见OSS计费概述

场景一:面向企业开发者的自定义数据集评测

企业通常会积累丰富的私有领域数据。如何充分利用好这部分数据,是企业使用大模型进行算法优化的关键。因此,企业开发者在评测开源微调后的大模型时,往往会基于私有领域下积累的自定义数据集,以便于更好地了解大模型在私有领域的效果。

对于自定义数据集评测,PAI大模型评测平台使用NLP领域标准的文本匹配方式,计算模型输出结果和真实结果的匹配度,值越大,模型越好。使用该评测方式,基于自己场景的独特数据,可以评测所选模型是否适合自己的场景。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测

  1. 准备自定义评测集。

    1. 自定义评测集格式说明:

      基于自定义数据集进行评测时,需要准备JSONL格式的评测集文件(示例文件:llmuses_general_qa_test.jsonl,76 KB)。格式如下:

      [{"question": "中国发明了造纸术,是否正确?", "answer": "正确"}]
      [{"question": "中国发明了火药,是否正确?", "answer": "正确"}]

      使用question标识问题列,answer标识答案列。

    2. 上传符合格式的评测集文件至OSS,详情请参见上传文件至OSS

    3. 根据OSS中评测集文件创建评测集。详情请参见创建数据集:从阿里云云产品

  2. 选择适合业务的模型。

    使用开源模型

    PAI控制台左侧导航栏快速开始 > Model Gallery页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。

    image

    使用微调后的模型

    PAI控制台左侧导航栏快速开始 > Model Gallery页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。对可评测的模型进行微调训练,然后在快速开始 > Model Gallery > 任务管理 > 训练任务页面中单击已训练成功的任务,右上角会显示评测按钮。

    image

    当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

  3. 创建并运行评测任务。

    在模型详情页右上角单击评测,创建评测任务。

    image

    关键参数配置如下:

    参数

    描述

    数据集

    选择上文所创建的自定义数据集。

    结果输出路径

    指定最终评测结果保存的OSS路径。

    资源组类型

    根据实际情况,选择公共资源组或通用计算资源。

    任务资源

    如果资源组类型为公共资源组时,默认会根据您的模型规格推荐相应资源。

    单击提交,任务开始运行。

  4. 查看评测结果。

    单任务结果

    快速开始 > Model Gallery > 任务管理 > 模型评测页面中评测任务的状态列显示已成功时,单击操作列的查看报告,在自定义数据集评测结果页面查看模型在ROUGEBLEU系列指标上的得分。

    image

    此外还会展示评测文件每条数据的评测详情。

    多任务对比结果

    快速开始 > Model Gallery > 任务管理 > 模型评测页面中选中要对比的模型评测任务,右上角单击对比,在自定义数据集评测结果页面查看对比结果。

    image

    评测结果解析:

    自定义数据集的默认评测指标包括:rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。

    • rouge-n类指标计算N-gram(连续的N个词)的重叠度,其中rouge-1rouge-2是最常用的,分别对应unigrambigram,rouge-l指标基于最长公共子序列(LCS)。

    • bleu (Bilingual Evaluation Understudy) 是另一种流行的评估机器翻译质量的指标,它通过测量机器翻译输出与一组参考翻译之间的N-gram重叠度来评分。其中bleu-n指标计算N-gram的匹配度。

    最终评测结果会保存到之前设置的结果输出路径中。

场景二:面向算法研究人员的公开数据集评测

算法研究通常建立在公开数据集上。研究人员在选择开源模型,或对模型进行微调后,都会参考其在权威公开数据集上的评测效果。然而,大模型时代的公开数据集种类繁多,研究人员需要花费大量时间调研选择适合自己领域的公开数据集,并熟悉每个数据集的评测流程。为方便算法研究人员,PAI接入了多个领域的公开数据集,并完整还原了各个数据集官方指定的评测metrics,以便获取最准确的评测效果反馈,助力更高效的大模型研究。

在公开数据集评测中,PAI大模型评测平台通过对开源的评测数据集按领域分类,对大模型进行综合能力评估,例如数学能力、知识能力、推理能力等,值越大,模型越好,这种评测方式也是大模型领域最常见的评测方式。

以下将重点展示使用过程中的一些关键点,更详细的操作细节,请参见模型评测

  1. 支持的公开数据集说明:

    目前PAI维护的公开数据集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公开数据集陆续接入中。

    数据集

    大小

    数据量

    领域

    MMLU

    166 MB

    14042

    知识

    TriviaQA

    14.3 MB

    17944

    知识

    C-Eval

    1.55 MB

    12342

    中文

    CMMLU

    1.08 MB

    11582

    中文

    GSM8K

    4.17 MB

    1319

    数学

    HellaSwag

    47.5 MB

    10042

    推理

    TruthfulQA

    0.284 MB

    816

    安全性

  2. 选择适合业务的模型。

    使用开源模型

    PAI控制台左侧导航栏快速开始 > Model Gallery页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。

    image

    使用微调后的模型

    PAI控制台左侧导航栏快速开始 > Model Gallery页面中,鼠标悬浮在模型卡片上,对于可评测的模型,会显示评测按钮。对可评测的模型进行微调训练,然后在快速开始 > Model Gallery > 任务管理 > 训练任务页面中单击已训练成功的任务,右上角会显示评测按钮。

    image

    当前模型评测功能支持HuggingFace所有AutoModelForCausalLM类型的模型。

  3. 创建并运行评测任务。

    在模型详情页右上角单击评测,创建评测任务。

    image

    关键参数配置如下:

    参数

    描述

    数据集

    选择公开数据集。

    结果输出路径

    指定最终评测结果保存的OSS路径。

    资源组类型

    根据实际情况,选择公共资源组或通用计算资源。

    任务资源

    如果资源组类型为公共资源组时,默认会根据您的模型规格推荐相应资源。

    单击提交,任务开始运行。

  4. 查看评测结果。

    单任务结果

    快速开始 > Model Gallery > 任务管理 > 模型评测页面中评测任务的状态列显示已成功时,单击操作列的查看报告,在公开数据集评测结果页面查看模型在各领域及数据集上的得分。

    image

    多任务对比结果

    快速开始 > Model Gallery > 任务管理 > 模型评测页面中选中要对比的模型评测任务,右上角单击对比,在公开数据集评测结果页面查看对比结果。

    image

    评测结果解析:

    • 左图展示了模型在不同领域的得分情况。每个领域可能会有多个与之相关的数据集,对属于同一领域的数据集,PAI大模型评测平台会把模型在这些数据集上的评测得分取均值,作为领域得分。

    • 右图展示模型在各个公开数据集的得分情况。每个公开数据集的评测范围详见公开数据集说明

    最终评测结果会保存到之前设置的结果输出路径中。

相关文档

模型评测