裁判员模型

裁判员模型是用于评测其他模型输出质量的辅助模型,能够充当“裁判员”的角色,对大语言模型(LLM)的输出结果进行评测和打分。PAI推出了裁判员大模型,为用户提供了开箱即用的LLM-as-a-Judge服务,带来准确、高效且易用的模型评测智能解决方案。

背景介绍

模型评测是大语言模型(LLM)开发与部署中的关键环节,用于检验模型表现是否符合预期,指导大语言模型选型,后续模型调用链路调优,并测试模型服务的效果可靠性。常见的模型评测方式有以下几种:

  • 指标评测

    基于评测指标(如BLEU、ROUGE、METEOR等),通过计算生成文本与参考文本的相似度,快速提供评测结果。其局限性在于:仅适用于文本摘要、机器翻译等有限场景,依赖提供参考文本,而且往往仅考虑表面的相似度,可能忽略深层语义和上下文连贯性。

  • 基准(benchmark)评测

    通过标准化数据集(如MMLU、GSM8k、HumanEval等),在一系列预定义任务上对模型进行测试。目前已有不少流行的基准,由于基准以客观题为主,评测结果具有标准性和可比性,所以便于使用这些基准建立LLM排行榜。但这种方法无法评价模型在主观和发散型问题上的表现。

  • 人工评测

    制定评分标准,设置人类评审员进行打分,汇集结果进行统计分析。前面的两种方式都是基于规则的评测,无法评测没有明确的参考答案的主观问题,而人工评测可以理解复杂多样的语义,评测结果和人类的预期能够达成一致。不过人工评测需要大量的资源和时间的成本。

因此,为了弥补以上评测方法的局限性,裁判员模型应运而生。裁判员模型无需人工标注,不限特定任务,无论是主观问题还是客观问题,都能够批量实现LLM的自动化高效评测。

功能概述

PAI推出了裁判员大模型,用户只需输入问题和待评测模型的回答,即可实现自动化打分。核心原理如下:

image

裁判员模型的主要亮点有:

  • 准确:裁判员模型擅长进行主观问题的评测,能够对问题进行智能场景分类,如开放性问题(闲聊/咨询/推荐等)、创意写作、代码生成、角色扮演等场景,针对不同场景会制定不同的评测标准,极大提高了评测的准确率。

  • 高效:裁判员模型无需人工标记数据,只需输入问题和模型回答,即可自主完成对大语言模型的分析与评价,大幅提高了评测的效率。

  • 易用:提供了控制台创建评测任务、API调用、SDK调用等多种使用方式,既满足了用户快速上手体验,也便于开发者灵活接入。

  • 低成本:仅需较便宜的价格,即可在中文评价场景中,提供与ChatGPT-4效果相媲美的评测性能。

计费说明

计费详情请参见裁判员模型计费说明

使用裁判员模型

开通裁判员模型功能后,您可以通过以下方式使用裁判员模型服务:

  • 控制台快速体验

    针对初级使用者,可以通过控制台快速体验裁判员模型功能。

  • API调用示例API功能说明

    支持使用Python SDK/HTTP方式在线调用,或准备批量数据离线调用裁判员模型算法服务,输入问题和模型推理返回的结果,返回评测的分数和理由。

  • 模型评测

    在控制台进行操作,选择预置的多种LLM模型,实现推理+评测的一体化流程。