评估任务执行完成后,您可以在 评估结果 标签页中对采样样本进行全方位的打分复盘。评估结果支持多维筛选、样本明细下钻及分组聚合分析,旨在帮助您从海量数据中精准锁定逻辑漏洞,了解 AI 应用在各评估维度的表现。
前提条件
已创建并运行过评估任务,且任务已产生评估数据。
操作步骤
登录 AgentLoop控制台,然后选择目标工作空间。
在左侧导航栏,选择评估下的评估任务。
在评估任务列表中,单击目标任务的任务名称,进入任务详情页面。
选择评估结果标签页。
筛选功能
评估结果页面提供丰富的筛选能力,帮助您快速定位目标数据。
基础筛选:支持按 状态(成功/失败)、评估器名称、分数区间(分数区间范围为 0~1,0.1 精度控制) 及时间范围进行初筛。
高级筛选 :
运行追溯:通过 runId 锁定特定运行记录。
链路定位:输入 trace_id 、 span_id 或 session_id 定位特定的链路样本。
实验关联:支持按 experiment_id 或 dataset_id 过滤,对比不同实验组的表现。
性能阈值:按“评估耗时”筛选,识别响应过慢的评估节点。
筛选标签管理:生效的条件将以标签形式直观展示,支持一键移除或全局清空。
明细视图
明细视图以可展开表格的形式展示每一条评估记录的详细信息,适合逐条分析评估结果。
表格列
列名 | 说明 |
数据项内容 | 展示被评估的原始数据内容。根据评估器的变量映射展示对应字段及其值,支持复制内容。内容长度可通过右上角的显示模式切换(紧凑/标准/完整)。 |
分数 | 评估得分,范围 0~1。以颜色标签直观展示分数等级: 很差(00.2 红色)、较差(0.3~0.4 橙色)、中等(0.5~0.6 黄色)、良好(0.7~0.8 蓝色)、优秀(0.9~1.0 绿色)。支持按分数排序。 |
状态 | 评估处理状态:成功或失败。失败时悬停可查看错误码。 |
评估器 | 执行本次评估的评估器名称。 |
评估耗时 | 本次评估的执行耗时。 |
Token 消耗 | 本次评估消耗的 Token 总量。悬停可查看详细的 Token 消耗明细(总 Token、输入 Token、输出 Token),辅助评估审计。 |
生成时间 | 评估结果的生成时间。 |
明细详情
单击表格行左侧的展开箭头,可查看该条评估的完整详细信息。
Token 成本统计:查看总 Token、 Input/Output Token的详细消耗。
评估指标 : 展示评估器指标、评估状态、评估分数、评估耗时以及 LLM 裁判给出该分数的详细推理过程,帮助您判断是模型能力不足、知识库缺失,还是评估准则(Prompt)需要优化。
链路溯源:点击 trace_id 或 span_id 可秒级跳转至调用链分析页面。您可以查看该评估样本产生时的完整上下文、向量检索结果或工具调用过程。
错误排查:若评估失败,将展示具体错误码(Error Code),协助您排查网络超时或模型准入问题。
分组视图
分组视图支持将同一条样本下的所有评估器结果进行聚合分析。例如,您可以一眼看到某个 Trace 在“相关性”和“准确性”上的综合表现,判断整条链路的健壮性。
点击任意行,侧滑展示该分组下的所有评估器明细,保持分析思路的连贯性。
说明:分组视图仅在任务的数据源类型和链路类型支持分组聚合时可用。