针对初级使用者,PAI提供了简单易用的Web界面,便于体验。您无需编程或准备数据集,只需输入问题和模型回答,即可一键生成评测结果。同时,在线体验也支持高级配置调整,以获得更精准的评测。
前提条件
开通服务
登录PAI控制台,单击立即开通,然后按照控制台操作指引,开通模型服务。
开通后,即可在概览页面查看Host和Token访问参数,以及调用量等详情。
在线体验
登录PAI控制台,选择在线体验页签,根据如下说明,配置相关参数。
评测内容
参数
说明
评测模型
支持以下两种模型:
pai-judge:模型规模较小,性价比更高。
pai-judge-plus:模型规模较大,推理效果更好。
评测模式
可以选择单模型评测或者双模型竞技。
评测问题
输入待评测的问题。
模型回答
输入评测问题相对应的模型回答。
单模型:输入一个模型回答。
双模型:输入两个模型回答。
参考答案
输入已知的参考答案。
对于确定性问题、数学类问题、翻译等场景,参考答案可以提升评测准确度。
(可选)高级配置
参数
说明
评测场景
问题场景
问题场景会根据您输入的评测问题内容自动识别对应的场景,您也可以手动指定场景。
场景包含文本改写、角色扮演、代码生成修改与分析等,每种场景具有不同的评测标准,帮助裁判员模型打分更加准确。
场景描述
问题场景对应的描述。
评测标准
问题场景对应的评测标准,可自定义内容。
评测分数
评测标准
自定义裁判员模型打分的分数值。
取值范围:[2, 10]
分档含义
基于最高分数下,每个分数值的含义。
生成参数
Temperature
控制生成文本的随机性。值越小,模型输出越保守,值越大,模型输出更加多样化。
取值范围:[0, 2)
Top_p
控制候选词的选择范围。模型会从累计概率达到Top_p值的词的集合中随机选择下一个词。
取值范围:[0, 1]
单击评测,在评测结果页签会流式返回裁判员模型的输出结果。您可以对结果进行反馈,以帮助我们改进裁判员模型的效果。
在Prompt预览页签,在线体验的参数会自动代入到Prompt模板中,您可以查看完整的Prompt,从而更好地理解裁判员模型的工作原理。
您也可以单击随机示例,页面会自动填充参数,帮助您快速体验裁判员模型能力。