Playground 提供可视化界面,用于配置并运行模型实验。支持针对异构模型进行提示词编排、推理参数调优及多分支 A/B 测试,运行后查看逐条输入输出与评估结果。
进入 Playground
您可以从以下三个入口进入调试环境:
从实验计划进入:在实验计划列表操作列点击 编辑,将在 Playground 中打开该计划,并加载该计划的配置。
从实验记录进入:在实验记录列表点击 查看详情 或 重新执行,将在 Playground 中打开该次实验,并加载该次实验的配置与结果;选择「重新执行」时,系统会自动触发一次运行。
直接进入:从导航进入 Playground 页面,默认展示一组空白实验配置,可手动添加多组并选择数据源。
实验配置
Playground 支持同时构建最多 5 组实验分支,用于对比不同模型或不同提示词策略的效果。
顶部操作区:返回实验计划/实验记录、折叠/展开配置区、导入实验计划、保存/另存为实验计划、运行/暂停。
配置区:实验名称、模型、角色与提示词、模型参数;支持多组实验分支配置、复制、删除。
结果表格区:数据源与评估器选择、展示字段、数据行列表,以及每行的运行状态、输出、评估结果等。
当从实验计划或实验记录进入时,顶部会展示计划名称、ID、创建时间与描述(若有)。
配置区说明
基础配置
配置项 | 说明 |
实验名称 | 默认为字母索引(如 A、B、C),支持自定义重命名(如“基础版本”、“长文本优化版”)。 |
模型 | 必选。
|
角色与提示词 |
|
模型参数
在「模型参数配置」中,您可以针对各实验分支微调推理策略(部分模型可能仅支持其中部分参数):
参数 | 说明 | 取值范围/说明 |
Temperature(温度) | 控制输出的随机性,值越高,生成的文本越具创造性;值越低,输出越稳定。 | 0~2 |
Top-P(核采样) | 核采样阈值,模型仅从累积概率超过 P 的词集合中采样,平衡多样性与逻辑性。 | 0~1 |
Max Tokens(最大生成长度) | 限制模型单次输出的最大长度。 | 1~32000 |
Stop Sequences(停止序列) | 停止序列,模型探测到指定字符时立即中断生成,每行一个序列。 | 如: |
Frequency Penalty(频率惩罚) | 频率惩罚,降低模型重复使用同一词汇的概率。 | -2.0~2.0 |
Presence Penalty(存在惩罚) | 存在惩罚,鼓励模型讨论新主题,增加输出的信息量。 | -2.0~2.0 |
Top-K(候选词数量) | 限制候选词范围。 | 1~100 |
数据驱动与自动化评测
数据集联动
数据集关联:在结果区选择目标数据集。系统将根据数据集字段自动映射 Prompt 中的变量。
样本抽样执行:支持选择“全部数据”运行全量回测,或勾选“部分数据”进行快速抽样验证。
评估器接入
实时评测:在结果区勾选所需的评估器。任务运行完成后,系统将自动触发评估流程,并将量化得分及评分依据实时反馈至结果表格中。
推理执行与结果洞察
执行控制:单击 运行 启动实验任务;过程中支持 暂停 以中断后续队列请求。
结果视图:
结果表格:同步展示原始输入字段、各实验分支的生成输出(Output)及对应的评估分值。
单行调试:支持针对特定 Bad Case 进行 重新运行 或 全屏深度比对。
字段管理:通过穿梭框自定义表格展示字段,隐藏非关键元数据。
实验资产管理
Playground 与实验计划深度联动,确保调试成果的沉淀与复用。
配置导入:单击顶部的 导入实验计划,可搜索并加载现有计划的配置,实现快速环境对齐。
资产固化:
保存:将当前 Playground 的所有修改(含模型参数、Prompt 模板)同步更新至关联的实验计划。
另存为:将当前优秀的配置组合保存为一个全新的实验计划,以便后续开展大规模自动化实验。