裁判员模型

更新时间: 2024-12-03 17:15:07

裁判员模型是用于评估其他模型输出质量的辅助模型,能够充当“裁判员”的角色,对大语言模型(LLM)的输出结果进行评估和打分。PAI推出了裁判员大模型,为用户提供了开箱即用的LLM-as-a-Judge服务,带来准确、高效且易用的模型评测智能解决方案。

背景介绍

模型评测是开发和部署大语言模型(LLM)过程中至关重要的一环,能够检验模型表现是否达到预期效果,从而推进模型的调整和优化,为用户提供有价值和可靠的模型服务。常见的模型评测方式有以下几种:

  1. 指标评测:使用评估指标(如BLEU、ROUGE、METEOR等),计算生成文本和参考文本的相似度,快速提供评测结果。不过这类指标适用于文本摘要、机器翻译等有限场景,依赖提供参考文本,而且往往仅考虑表面的相似度,可能会忽略深层语义和上下文连贯性。

  2. 基准(benchmark)评测:通过标准化数据集(如MMLU、GSM8k、HumanEval等),在一系列预定义任务上对模型进行测试。目前已有不少流行的基准,由于基准以客观题为主,评测结果具有标准性和可比性,所以便于使用这些基准建立LLM排行榜。然而,这种方法无法评价模型在主观和发散型问题上的表现。

  3. 人工评测:制定评分标准,设置人类评审员进行打分,汇集结果进行统计分析。前面的两种方式都是基于规则的评测,无法评测没有明确的参考答案的主观问题,而人工评测可以理解复杂多样的语义,评测结果和人类的预期能够达成一致。不过人工评测需要大量的资源和时间的成本。

因此,为了弥补以上评测方法的局限性,我们推出了裁判员模型服务。裁判员模型无需人工标注,不限特定任务,无论是主观问题还是客观问题,都能够批量实现LLM的自动化高效评估。

功能概述

PAI推出了裁判员大模型,用户只需输入问题和待评测模型的回答,即可实现自动化打分。核心原理如下:

image

裁判员模型的主要亮点有:

  • 准确:裁判员模型擅长进行主观问题的评测,能够对问题进行智能场景分类,如开放性问题(闲聊/咨询/推荐等)、创意写作、代码生成、角色扮演等场景,针对不同场景会制定不同的评测标准,极大提高了评测的准确率。

  • 高效:裁判员模型无需人工标记数据,只需输入问题和模型回答,即可自主完成对大语言模型的分析与评价,大幅提高了评测的效率。

  • 易用:提供了控制台创建评测任务、API调用、SDK调用等多种使用方式,既满足了用户快速上手体验,也便于开发灵活接入。

  • 低成本:仅需较便宜的价格,即可在中文评价场景中,提供与ChatGPT-4效果相媲美的评估性能。

计费说明

计费详情请参见裁判员模型计费说明

开通服务

  1. 登录PAI控制台,单击立即开通,然后按照控制台操作指引,开通模型服务。

    image

  2. 开通后,即可在裁判员模型页面查看Host、Token等调用参数,以及调用量等详情。

在线体验

针对初级使用者,PAI提供了简单易用的Web界面,便于体验。您无需编程或准备数据集,只需输入问题和模型回答,即可一键生成评测结果。同时,在线体验也支持高级配置调整,以获得更精准的评测。

具体操作步骤如下:

  1. 登录PAI控制台,选择在线体验页签,根据如下说明,配置相关参数。

    1. 评测内容

      参数

      说明

      评测模型

      支持以下两种模型:

      • pai-judge:模型规模较小,性价比更高。

      • pai-judge-plus:模型规模较大,推理效果更好。

      评测模式

      可以选择单模型评测或者双模型竞技

      评测问题

      输入待评测的问题。

      模型回答

      输入评测问题相对应的模型回答。

      • 单模型:输入一个模型回答。

      • 双模型:输入两个模型回答。

      参考答案

      输入已知的参考答案。

      对于确定性问题、数学类问题、翻译等场景,参考答案可以提升评测准确度。

    2. (可选)高级配置

      参数

      说明

      评测场景

      问题场景

      问题场景会根据您输入的评测问题内容自动识别对应的场景,您也可以手动指定场景。

      场景包含文本改写、角色扮演、代码生成修改与分析等,每种场景具有不同的评测标准,帮助裁判员模型打分更加准确。

      场景描述

      问题场景对应的描述。

      评测标准

      问题场景对应的评测标准,可自定义内容。

      评测分数

      评测标准

      自定义裁判员模型打分的分数值。

      取值范围:[2, 10]

      分档含义

      基于最高分数下,每个分数值的含义。

      生成参数

      Temperature

      控制生成文本的随机性。值越小,模型输出越保守,值越大,模型输出更加多样化。

      取值范围:[0, 2)

      Top_p

      控制候选词的选择范围。模型会从累计概率达到Top_p值的词的集合中随机选择下一个词。

      取值范围:[0, 1]

  2. 单击评测,在评测结果页签会流式返回裁判员模型的输出结果。您可以对结果进行反馈,以帮助我们改进裁判员模型的效果。

    Prompt预览页签,在线体验的参数会自动代入到Prompt模板中,您可以查看完整的Prompt,从而更理解裁判员模型的工作原理。

  3. 您也可以单击随机示例,页面会自动填充参数,帮助您快速体验裁判员模型能力。

    image

使用裁判员模型

开通裁判员模型功能后,除了在线体验以外,您还可以通过以下两种方式使用裁判员模型服务:

  • 裁判员模型API使用说明

    使用Python SDK或HTTP方式调用裁判员模型算法服务,输入问题和模型推理返回的结果,返回评测的分数和理由。

  • 模型评测

    在控制台进行操作,选择预置的多种LLM模型,实现推理+评测的一体化流程。

上一篇: 多媒体分析:Python SDK使用说明 下一篇: 裁判员模型API使用说明
阿里云首页 人工智能平台 PAI 相关技术圈