功能简介
实验管理由实验计划与实验记录两个核心模块组成:
实验计划:用于定义和沉淀标准化的实验配置模板(包括模型、提示词、数据集及评估器),实现配置的资产化与复用。
实验记录:承载实验执行的完整快照,支持对推理结果、评估得分及工程指标进行回溯、重跑及横向对比分析。
实验计划
实验计划是开展系统性评测的基础。通过创建计划,您可以锁定一组实验变量,确保在多次迭代中评估环境的一致性。
新建实验计划
登录AgentLoop控制台,选择目标工作空间。
在左侧导航栏进入实验&Playground下的实验管理。
选择实验计划页签。
在实验计划列表页,单击新建实验计划。
在弹窗中配置以下基础信息:
参数
说明
实验计划名称
必填。建议体现业务场景与评测目标(如:智能客服-语义理解评测-V1)。
实验描述
选填记录实验背景、预期目标或核心变更点。
数据集
选填。关联标准测试集,确保实验在统一的数据基准上运行。
单击到 Playground 执行,系统将自动创建计划并跳转到 Playground 页面,页面会加载该计划的预设配置,您可在 Playground 中继续配置模型、提示词、推理参数后运行实验。
实验计划列表
列表展示所有实验计划,支持以下信息展示:
列/区域 | 说明 |
计划名称/ID | 计划名称与计划 ID,点击名称可查看详情。 |
描述 | 计划的描述信息。 |
状态 | 计划状态:待执行、执行中、已完成。 |
最近一次执行 | 该计划最近一次执行时间。 |
执行次数 | 基于该计划已执行的次数。 |
创建时间 | 计划创建时间。 |
操作 | 编辑:可在 Playground 中重新加载该计划的完整配置。 删除:实验计划删除后不可恢复,但已生成的实验记录将作为历史快照予以保留。 |
实验记录
实验记录是每次执行实验计划的快照信息,记录了从输入、推理到评估的全过程数据。
进入实验记录
切换至实验记录页签,查看实验记录列表。
列/区域 | 说明 |
执行时间 | 该次实验计划的执行时间。 |
记录名称/ID | 实验名称与记录 ID。 |
实验计划 | 关联的实验计划名称或 ID;未关联时显示「未关联实验计划」。 |
数据集 | 使用的数据集;未关联时显示「未关联数据集」。 |
数据条数 | 本次实验涉及的数据条数(计划数)。 |
评估器 | 来自 SLS 的评估结果,展示各评估器名称及得分;暂无评估时显示「暂无评估」。 |
执行状态 | 待执行、执行中、已完成、失败、已取消。 |
查看详情
在操作列单击 查看详情,将在 Playground 中打开该次实验,还原执行时的所有配置参数与推理结果,支持对逐条样本进行溯源。
重新执行
在操作列单击 重新执行,将在 Playground 中打开该次实验并加载配置,以当前记录的配置为基准,在 Playground 中快速触发一次新的运行任务,用于验证结果的稳定性。
取消实验
针对“待执行”或“执行中”的任务,支持下发停止指令。系统将中断推理请求并更新状态为“已取消”。
对比分析
对比分析是评估模型迭代效果的关键决策工具。
勾选记录:在实验记录列表中,勾选多条需对比的任务(建议选择不同 Prompt 版本或不同模型服务的记录)。
说明支持选择最多 5 条实验记录执行对比分析。
发起对比:点击对比分析按钮。
多维洞察:
概览对比:横向对比各记录的平均分、成功率、Token 成本及耗时分布。
配置对比:高亮显示不同实验间在提示词(Prompt)与模型参数上的差异。
样本对比:支持设置“基准组(Baseline)”,逐条比对输出文本的语义差异(Diff)与评分详情,精准定位差异内容较大的样本。