对比分析是针对多条实验记录开展的横向回归分析工具。通过对执行概览、模型超参数配置、样本级语义输出及量化评估指标的深度比对,协助开发者识别模型在性能与质量维度的差异,精准定位性能差异点,为模型迭代提供决策支持。
前提条件
当前工作空间内至少存在 2 条已完成的实验记录(最多支持 5 条并行对比)。
进入对比分析
登录AgentLoop控制台,选择目标工作空间。
在左侧导航栏进入实验&Playground下的实验管理。
选择实验记录页签。
在列表中勾选 2~5 条待对比的实验记录。
单击列表上方的对比分析按钮,系统将跳转至专用对比视图。
对比说明
对比分析支持在侧边栏指定任一记录为“基准组”,动态调整对比策略与展示维度,旨在提供从宏观指标到微观样本的全方位洞察。
添加/移除记录
添加记录:点击「添加记录」,在弹窗中搜索实验记录名称,从列表中选择要加入对比的记录(最多 5 条),确认后加入当前对比集合。
移除记录:在参与对比的记录列表中移除某条记录,仅影响当前对比页,不删除实验记录本身。
基线设定
在对比设置中可将某一条实验记录设为 基线。
设为基线后,其他记录的评估指标可展示为「相对基线的增减幅度」:正值表示优于基线,负值表示低于基线。
页面会提示「已选择 xxx 作为基准。其他实验记录的指标将显示相对于此基准的增减幅度……」。
显示选项
选项 | 说明 |
显示差异值 | 展示相对于基准(基线)的性能增减幅度,便于快速看出谁更好/更差。 |
文本差异高亮 | 在样本对比中,对文本差异进行高亮显示,便于查看输出差异。 |
评估器
可勾选要参与对比的评估器,对比结果与雷达图等会按所选评估器展示。
概览对比
提供实验记录的综合性能看板,用于评估整体迭代效果。
基础信息对比表:横向对齐记录名称、执行时间、关联计划及数据集范围,确保对比实验的基准一致性。
指标可视化:基于多维度评估器生成雷达图或柱状图,直观展现不同实验在准确性、安全性、逻辑性等评估维度的表现差异。
效能指标分析:对比各实验的 平均响应延时 (Latency) 与 Token 消耗,评估推理效率与成本分布。
配置对比
对比各实验分支的底层超参数设置,追溯效果差异的配置根源。
超参数矩阵:对齐各记录的模型服务(Model)、采样温度(Temperature)、最大 Token 数(Max Tokens)、核采样(Top-P/K)、停止符(Stop)及惩罚系数等。
差异高亮:系统自动识别并标记实验间的配置偏差,辅助分析参数变动对模型生成质量的影响。