对比分析

更新时间:
复制为 MD 格式

对比分析是针对多条实验记录开展的横向回归分析工具。通过对执行概览、模型超参数配置、样本级语义输出及量化评估指标的深度比对,协助开发者识别模型在性能与质量维度的差异,精准定位性能差异点,为模型迭代提供决策支持。

前提条件

  • 当前工作空间内至少存在 2 条已完成的实验记录(最多支持 5 条并行对比)。

进入对比分析

  1. 登录AgentLoop控制台,选择目标工作空间。

  2. 在左侧导航栏进入实验&Playground下的实验管理

  3. 选择实验记录页签。

  4. 在列表中勾选 2~5 条待对比的实验记录。

  5. 单击列表上方的对比分析按钮,系统将跳转至专用对比视图。

对比说明

对比分析支持在侧边栏指定任一记录为“基准组”,动态调整对比策略与展示维度,旨在提供从宏观指标到微观样本的全方位洞察。

添加/移除记录
  • 添加记录:点击「添加记录」,在弹窗中搜索实验记录名称,从列表中选择要加入对比的记录(最多 5 条),确认后加入当前对比集合。

  • 移除记录:在参与对比的记录列表中移除某条记录,仅影响当前对比页,不删除实验记录本身。

基线设定
  • 在对比设置中可将某一条实验记录设为 基线

  • 设为基线后,其他记录的评估指标可展示为「相对基线的增减幅度」:正值表示优于基线,负值表示低于基线。

  • 页面会提示「已选择 xxx 作为基准。其他实验记录的指标将显示相对于此基准的增减幅度……」。

显示选项

选项

说明

显示差异值

展示相对于基准(基线)的性能增减幅度,便于快速看出谁更好/更差。

文本差异高亮

在样本对比中,对文本差异进行高亮显示,便于查看输出差异。

评估器

可勾选要参与对比的评估器,对比结果与雷达图等会按所选评估器展示。

概览对比

提供实验记录的综合性能看板,用于评估整体迭代效果。

  • 基础信息对比表:横向对齐记录名称、执行时间、关联计划及数据集范围,确保对比实验的基准一致性。

  • 指标可视化:基于多维度评估器生成雷达图或柱状图,直观展现不同实验在准确性、安全性、逻辑性等评估维度的表现差异。

  • 效能指标分析:对比各实验的 平均响应延时 (Latency) 与 Token 消耗,评估推理效率与成本分布。

配置对比

对比各实验分支的底层超参数设置,追溯效果差异的配置根源。

  • 超参数矩阵:对齐各记录的模型服务(Model)、采样温度(Temperature)、最大 Token 数(Max Tokens)、核采样(Top-P/K)、停止符(Stop)及惩罚系数等。

  • 差异高亮:系统自动识别并标记实验间的配置偏差,辅助分析参数变动对模型生成质量的影响。