查看评估结果

更新时间:
复制为 MD 格式

评估任务执行完成后,您可以在 评估结果 标签页中对采样样本进行全方位的打分复盘。评估结果支持多维筛选、样本明细下钻及分组聚合分析,旨在帮助您从海量数据中精准锁定逻辑漏洞,了解 AI 应用在各评估维度的表现。

前提条件

  • 已创建并运行过评估任务,且任务已产生评估数据。

操作步骤

  1. 登录 AgentLoop控制台,然后选择目标工作空间。

  2. 在左侧导航栏,选择评估下的评估任务

  3. 在评估任务列表中,单击目标任务的任务名称,进入任务详情页面。

  4. 选择评估结果标签页。

筛选功能

评估结果页面提供丰富的筛选能力,帮助您快速定位目标数据。

  • 基础筛选:支持按 状态(成功/失败)、评估器名称、分数区间(分数区间范围为 0~1,0.1 精度控制) 及时间范围进行初筛。

  • 高级筛选 :

    • 运行追溯:通过 runId 锁定特定运行记录。

    • 链路定位:输入 trace_id 、 span_id 或 session_id 定位特定的链路样本。

    • 实验关联:支持按 experiment_id 或 dataset_id 过滤,对比不同实验组的表现。

    • 性能阈值:按“评估耗时”筛选,识别响应过慢的评估节点。

筛选标签管理:生效的条件将以标签形式直观展示,支持一键移除或全局清空。

明细视图

明细视图以可展开表格的形式展示每一条评估记录的详细信息,适合逐条分析评估结果。

表格列

列名

说明

数据项内容

展示被评估的原始数据内容。根据评估器的变量映射展示对应字段及其值,支持复制内容。内容长度可通过右上角的显示模式切换(紧凑/标准/完整)。

分数

评估得分,范围 0~1。以颜色标签直观展示分数等级:

很差(00.2 红色)、较差(0.3~0.4 橙色)、中等(0.5~0.6 黄色)、良好(0.7~0.8 蓝色)、优秀(0.9~1.0 绿色)。支持按分数排序。

状态

评估处理状态:成功或失败。失败时悬停可查看错误码。

评估器

执行本次评估的评估器名称。

评估耗时

本次评估的执行耗时。

Token 消耗

本次评估消耗的 Token 总量。悬停可查看详细的 Token 消耗明细(总 Token、输入 Token、输出 Token),辅助评估审计。

生成时间

评估结果的生成时间。

明细详情

单击表格行左侧的展开箭头,可查看该条评估的完整详细信息。

  • Token 成本统计:查看总 Token、 Input/Output Token的详细消耗。

  • 评估指标 : 展示评估器指标、评估状态、评估分数、评估耗时以及 LLM 裁判给出该分数的详细推理过程,帮助您判断是模型能力不足、知识库缺失,还是评估准则(Prompt)需要优化。

  • 链路溯源:点击 trace_id 或 span_id 可秒级跳转至调用链分析页面。您可以查看该评估样本产生时的完整上下文、向量检索结果或工具调用过程。

  • 错误排查:若评估失败,将展示具体错误码(Error Code),协助您排查网络超时或模型准入问题。

分组视图

分组视图支持将同一条样本下的所有评估器结果进行聚合分析。例如,您可以一眼看到某个 Trace 在“相关性”和“准确性”上的综合表现,判断整条链路的健壮性。

点击任意行,侧滑展示该分组下的所有评估器明细,保持分析思路的连贯性。

说明:分组视图仅在任务的数据源类型和链路类型支持分组聚合时可用。