Playground

更新时间:
复制为 MD 格式

Playground 提供可视化界面,用于配置并运行模型实验。支持针对异构模型进行提示词编排、推理参数调优及多分支 A/B 测试,运行后查看逐条输入输出与评估结果。

进入 Playground

您可以从以下三个入口进入调试环境:

  • 从实验计划进入:在实验计划列表操作列点击 编辑,将在 Playground 中打开该计划,并加载该计划的配置。

  • 从实验记录进入:在实验记录列表点击 查看详情 或 重新执行,将在 Playground 中打开该次实验,并加载该次实验的配置与结果;选择「重新执行」时,系统会自动触发一次运行。

  • 直接进入:从导航进入 Playground 页面,默认展示一组空白实验配置,可手动添加多组并选择数据源。

实验配置

Playground 支持同时构建最多 5 组实验分支,用于对比不同模型或不同提示词策略的效果。

  1. 顶部操作区:返回实验计划/实验记录、折叠/展开配置区、导入实验计划、保存/另存为实验计划、运行/暂停。

  2. 配置区:实验名称、模型、角色与提示词、模型参数;支持多组实验分支配置、复制、删除。

  3. 结果表格区:数据源与评估器选择、展示字段、数据行列表,以及每行的运行状态、输出、评估结果等。

当从实验计划或实验记录进入时,顶部会展示计划名称、ID、创建时间与描述(若有)。

配置区说明

基础配置

配置项

说明

实验名称

默认为字母索引(如 A、B、C),支持自定义重命名(如“基础版本”、“长文本优化版”)。

模型

必选。

  • 通过级联选择器接入不同厂商的模型服务,如:模型提供商 > 品牌 > 系列 > 模型(如 dashscope > Qwen > Qwen Plus > qwen-plus)。支持 Qwen、Kimi、GLM、DeepSeek、MiniMax 等品牌及多系列。

  • 支持选择自定义模型服务。

角色与提示词

  • 支持 System(系统级指令)、User(用户输入)及 Assistant(期望回复)的角色内容编排。

    • 变量注入:支持使用 {{变量名}} 语法引用数据集字段。例如:请翻译以下内容:{{text_input}}。

模型参数

在「模型参数配置」中,您可以针对各实验分支微调推理策略(部分模型可能仅支持其中部分参数):

参数

说明

取值范围/说明

Temperature(温度)

控制输出的随机性,值越高,生成的文本越具创造性;值越低,输出越稳定。

0~2

Top-P(核采样)

核采样阈值,模型仅从累积概率超过 P 的词集合中采样,平衡多样性与逻辑性。

0~1

Max Tokens(最大生成长度)

限制模型单次输出的最大长度。

1~32000

Stop Sequences(停止序列)

停止序列,模型探测到指定字符时立即中断生成,每行一个序列。

如:User:###

Frequency Penalty(频率惩罚)

频率惩罚,降低模型重复使用同一词汇的概率。

-2.0~2.0

Presence Penalty(存在惩罚)

存在惩罚,鼓励模型讨论新主题,增加输出的信息量。

-2.0~2.0

Top-K(候选词数量)

限制候选词范围。

1~100

数据驱动与自动化评测

数据集联动
  • 数据集关联:在结果区选择目标数据集。系统将根据数据集字段自动映射 Prompt 中的变量。

  • 样本抽样执行:支持选择“全部数据”运行全量回测,或勾选“部分数据”进行快速抽样验证。

评估器接入

实时评测:在结果区勾选所需的评估器。任务运行完成后,系统将自动触发评估流程,并将量化得分及评分依据实时反馈至结果表格中。

推理执行与结果洞察
  • 执行控制:单击 运行 启动实验任务;过程中支持 暂停 以中断后续队列请求。

  • 结果视图:

    • 结果表格:同步展示原始输入字段、各实验分支的生成输出(Output)及对应的评估分值。

    • 单行调试:支持针对特定 Bad Case 进行 重新运行 或 全屏深度比对。

    • 字段管理:通过穿梭框自定义表格展示字段,隐藏非关键元数据。

实验资产管理

Playground 与实验计划深度联动,确保调试成果的沉淀与复用。

  • 配置导入:单击顶部的 导入实验计划,可搜索并加载现有计划的配置,实现快速环境对齐。

  • 资产固化:

    • 保存:将当前 Playground 的所有修改(含模型参数、Prompt 模板)同步更新至关联的实验计划。

    • 另存为:将当前优秀的配置组合保存为一个全新的实验计划,以便后续开展大规模自动化实验。