裁判员模型服务正式发布_人工智能平台 PAI(PAI)-阿里云帮助中心

裁判员模型为客户提供了高效、准确且成本低的LLM评估工具。

适用客户

适用于有评估和优化大语言模型（LLM）需求的客户，包含AI服务提供商，自主开发LLM的企业，应用LLM的企业，AI学术研究员/研究机构等。

新增功能/规格

PAI-裁判员模型服务，使用基于Qwen2微调的大模型作为裁判员，对被评估模型的生成结果进行打分，适用于开放性、复杂问答场景。其主要优势概述如下：
1. 准确：裁判员模型擅长进行主观问题的评测，能够对问题进行智能场景分类，如开放性问题（闲聊/咨询/推荐等）、创意写作、代码生成、角色扮演等场景，针对不同场景会制定不同的评测标准，极大提高了评测的准确率。
2. 高效：裁判员模型无需人工标记数据，只需输入问题和模型回答，即可自主完成对大语言模型的分析与评价，大幅提高了评测的效率。
3. 易用：提供了控制台创建评测任务、API调用、SDK调用等多种使用方式，既满足了用户快速上手体验，也便于开发灵活接入。
4. 低成本：仅需较便宜的价格，即可在中文评价场景中，提供与ChatGPT-4效果相媲美的评估性能。

产品文档

裁判员模型概述