实验管理

更新时间:
复制为 MD 格式

功能简介

实验管理由实验计划与实验记录两个核心模块组成:

  • 实验计划:用于定义和沉淀标准化的实验配置模板(包括模型、提示词、数据集及评估器),实现配置的资产化与复用。

  • 实验记录:承载实验执行的完整快照,支持对推理结果、评估得分及工程指标进行回溯、重跑及横向对比分析。

实验计划

实验计划是开展系统性评测的基础。通过创建计划,您可以锁定一组实验变量,确保在多次迭代中评估环境的一致性。

新建实验计划

  1. 登录AgentLoop控制台,选择目标工作空间。

  2. 在左侧导航栏进入实验&Playground下的实验管理

  3. 选择实验计划页签。

  4. 在实验计划列表页,单击新建实验计划

  5. 在弹窗中配置以下基础信息:

    参数

    说明

    实验计划名称

    必填。建议体现业务场景与评测目标(如:智能客服-语义理解评测-V1)。

    实验描述

    选填记录实验背景、预期目标或核心变更点。

    数据集

    选填。关联标准测试集,确保实验在统一的数据基准上运行。

  6. 单击到 Playground 执行,系统将自动创建计划并跳转到 Playground 页面,页面会加载该计划的预设配置,您可在 Playground 中继续配置模型、提示词、推理参数后运行实验。

实验计划列表

列表展示所有实验计划,支持以下信息展示:

列/区域

说明

计划名称/ID

计划名称与计划 ID,点击名称可查看详情。

描述

计划的描述信息。

状态

计划状态:待执行、执行中、已完成。

最近一次执行

该计划最近一次执行时间。

执行次数

基于该计划已执行的次数。

创建时间

计划创建时间。

操作

编辑:可在 Playground 中重新加载该计划的完整配置。

删除:实验计划删除后不可恢复,但已生成的实验记录将作为历史快照予以保留。

实验记录

实验记录是每次执行实验计划的快照信息,记录了从输入、推理到评估的全过程数据。

进入实验记录

切换至实验记录页签,查看实验记录列表。

列/区域

说明

执行时间

该次实验计划的执行时间。

记录名称/ID

实验名称与记录 ID。

实验计划

关联的实验计划名称或 ID;未关联时显示「未关联实验计划」。

数据集

使用的数据集;未关联时显示「未关联数据集」。

数据条数

本次实验涉及的数据条数(计划数)。

评估器

来自 SLS 的评估结果,展示各评估器名称及得分;暂无评估时显示「暂无评估」。

执行状态

待执行、执行中、已完成、失败、已取消。

查看详情

在操作列单击 查看详情,将在 Playground 中打开该次实验,还原执行时的所有配置参数与推理结果,支持对逐条样本进行溯源。

重新执行

在操作列单击 重新执行,将在 Playground 中打开该次实验并加载配置,以当前记录的配置为基准,在 Playground 中快速触发一次新的运行任务,用于验证结果的稳定性。

取消实验

针对“待执行”或“执行中”的任务,支持下发停止指令。系统将中断推理请求并更新状态为“已取消”。

对比分析

对比分析是评估模型迭代效果的关键决策工具。

  1. 勾选记录:在实验记录列表中,勾选多条需对比的任务(建议选择不同 Prompt 版本或不同模型服务的记录)。

    说明

    支持选择最多 5 条实验记录执行对比分析。

  2. 发起对比:点击对比分析按钮。

  3. 多维洞察:

    • 概览对比:横向对比各记录的平均分、成功率、Token 成本及耗时分布。

    • 配置对比:高亮显示不同实验间在提示词(Prompt)与模型参数上的差异。

    • 样本对比:支持设置“基准组(Baseline)”,逐条比对输出文本的语义差异(Diff)与评分详情,精准定位差异内容较大的样本。