对比分析-云监控(CMS)-阿里云帮助中心

文档备案控制台

输入文档关键字查找

对比分析是针对多条实验记录开展的横向回归分析工具。通过对执行概览、模型超参数配置、样本级语义输出及量化评估指标的深度比对，协助开发者识别模型在性能与质量维度的差异，精准定位性能差异点，为模型迭代提供决策支持。

前提条件

当前工作空间内至少存在 2 条已完成的实验记录（最多支持 5 条并行对比）。

进入对比分析

登录AgentLoop控制台，选择目标工作空间。
在左侧导航栏进入实验&Playground下的实验管理。
选择实验记录页签。
在列表中勾选 2～5 条待对比的实验记录。
单击列表上方的对比分析按钮，系统将跳转至专用对比视图。

对比说明

对比分析支持在侧边栏指定任一记录为“基准组”，动态调整对比策略与展示维度，旨在提供从宏观指标到微观样本的全方位洞察。

添加/移除记录

添加记录：点击「添加记录」，在弹窗中搜索实验记录名称，从列表中选择要加入对比的记录（最多 5 条），确认后加入当前对比集合。
移除记录：在参与对比的记录列表中移除某条记录，仅影响当前对比页，不删除实验记录本身。

基线设定

在对比设置中可将某一条实验记录设为基线。
设为基线后，其他记录的评估指标可展示为「相对基线的增减幅度」：正值表示优于基线，负值表示低于基线。
页面会提示「已选择 xxx 作为基准。其他实验记录的指标将显示相对于此基准的增减幅度……」。

显示选项

选项	说明
显示差异值	展示相对于基准（基线）的性能增减幅度，便于快速看出谁更好/更差。
文本差异高亮	在样本对比中，对文本差异进行高亮显示，便于查看输出差异。

评估器

可勾选要参与对比的评估器，对比结果与雷达图等会按所选评估器展示。

概览对比

提供实验记录的综合性能看板，用于评估整体迭代效果。

基础信息对比表：横向对齐记录名称、执行时间、关联计划及数据集范围，确保对比实验的基准一致性。
指标可视化：基于多维度评估器生成雷达图或柱状图，直观展现不同实验在准确性、安全性、逻辑性等评估维度的表现差异。
效能指标分析：对比各实验的平均响应延时 (Latency) 与 Token 消耗，评估推理效率与成本分布。

配置对比

对比各实验分支的底层超参数设置，追溯效果差异的配置根源。

超参数矩阵：对齐各记录的模型服务（Model）、采样温度（Temperature）、最大 Token 数（Max Tokens）、核采样（Top-P/K）、停止符（Stop）及惩罚系数等。
差异高亮：系统自动识别并标记实验间的配置偏差，辅助分析参数变动对模型生成质量的影响。

上一篇：实验管理下一篇：Playground

该文章对您有帮助吗？