裁判员模型_人工智能平台 PAI(PAI)-阿里云帮助中心

裁判员模型是用于评估其他模型输出质量的辅助模型，能够充当“裁判员”的角色，对大语言模型（LLM）的输出结果进行评估和打分。PAI推出了裁判员大模型，为用户提供了开箱即用的LLM-as-a-Judge服务，带来准确、高效且易用的模型评测智能解决方案。

背景介绍

模型评测是开发和部署大语言模型（LLM）过程中至关重要的一环，能够检验模型表现是否达到预期效果，从而推进模型的调整和优化，为用户提供有价值和可靠的模型服务。常见的模型评测方式有以下几种：

指标评测：使用评估指标（如BLEU、ROUGE、METEOR等），计算生成文本和参考文本的相似度，快速提供评测结果。不过这类指标适用于文本摘要、机器翻译等有限场景，依赖提供参考文本，而且往往仅考虑表面的相似度，可能会忽略深层语义和上下文连贯性。
基准（benchmark）评测：通过标准化数据集（如MMLU、GSM8k、HumanEval等），在一系列预定义任务上对模型进行测试。目前已有不少流行的基准，由于基准以客观题为主，评测结果具有标准性和可比性，所以便于使用这些基准建立LLM排行榜。然而，这种方法无法评价模型在主观和发散型问题上的表现。
人工评测：制定评分标准，设置人类评审员进行打分，汇集结果进行统计分析。前面的两种方式都是基于规则的评测，无法评测没有明确的参考答案的主观问题，而人工评测可以理解复杂多样的语义，评测结果和人类的预期能够达成一致。不过人工评测需要大量的资源和时间的成本。

因此，为了弥补以上评测方法的局限性，我们推出了裁判员模型服务。裁判员模型无需人工标注，不限特定任务，无论是主观问题还是客观问题，都能够批量实现LLM的自动化高效评估。

PAI推出了裁判员大模型，用户只需输入问题和待评测模型的回答，即可实现自动化打分。核心原理如下：

裁判员模型的主要亮点有：

准确：裁判员模型擅长进行主观问题的评测，能够对问题进行智能场景分类，如开放性问题（闲聊/咨询/推荐等）、创意写作、代码生成、角色扮演等场景，针对不同场景会制定不同的评测标准，极大提高了评测的准确率。
高效：裁判员模型无需人工标记数据，只需输入问题和模型回答，即可自主完成对大语言模型的分析与评价，大幅提高了评测的效率。
易用：提供了控制台创建评测任务、API调用、SDK调用等多种使用方式，既满足了用户快速上手体验，也便于开发灵活接入。
低成本：仅需较便宜的价格，即可在中文评价场景中，提供与ChatGPT-4效果相媲美的评估性能。

针对初级使用者，PAI提供了简单易用的Web界面，便于体验。您无需编程或准备数据集，只需输入问题和模型回答，即可一键生成评测结果。同时，在线体验也支持高级配置调整，以获得更精准的评测。

具体操作步骤如下：

登录PAI控制台，选择在线体验页签，根据如下说明，配置相关参数。

评测内容

参数	说明
评测模型	支持以下两种模型： pai-judge：模型规模较小，性价比更高。 pai-judge-plus：模型规模较大，推理效果更好。
评测模式	可以选择单模型评测或者双模型竞技。
评测问题	输入待评测的问题。
模型回答	输入评测问题相对应的模型回答。单模型：输入一个模型回答。双模型：输入两个模型回答。
参考答案	输入已知的参考答案。对于确定性问题、数学类问题、翻译等场景，参考答案可以提升评测准确度。

（可选）高级配置

参数	说明
评测场景
问题场景	问题场景会根据您输入的评测问题内容自动识别对应的场景，您也可以手动指定场景。场景包含文本改写、角色扮演、代码生成修改与分析等，每种场景具有不同的评测标准，帮助裁判员模型打分更加准确。
场景描述	问题场景对应的描述。
评测标准	问题场景对应的评测标准，可自定义内容。
评测分数
评测标准	自定义裁判员模型打分的分数值。取值范围：[2, 10]
分档含义	基于最高分数下，每个分数值的含义。
生成参数
Temperature	控制生成文本的随机性。值越小，模型输出越保守，值越大，模型输出更加多样化。取值范围：[0, 2)
Top_p	控制候选词的选择范围。模型会从累计概率达到Top_p值的词的集合中随机选择下一个词。取值范围：[0, 1]

单击评测，在评测结果页签会流式返回裁判员模型的输出结果。您可以对结果进行反馈，以帮助我们改进裁判员模型的效果。
在Prompt预览页签，在线体验的参数会自动代入到Prompt模板中，您可以查看完整的Prompt，从而更理解裁判员模型的工作原理。
您也可以单击随机示例，页面会自动填充参数，帮助您快速体验裁判员模型能力。

开通裁判员模型功能后，除了在线体验以外，您还可以通过以下两种方式使用裁判员模型服务：