评估概述

更新时间:
复制 MD 格式

AgentLoop 为 AI 应用提供的全生命周期质量度量能力。通过评估模块对 AI Agent 的输入输出、工具调用(Tool Calls)、推理轨迹等进行多维度的质量打分。它将原本依赖人工审核的主观感性评价,转化为可量化、可追溯、可对比的客观指标,为 Agent 的性能优化提供数据驱动的决策支持。消除 AI 表现的"黑盒"状态,明确回答 Agent "好不好"、"哪里好"、"哪里差"以及"如何改"。

核心模块

评估功能由三个互补的核心模块组成:

评估器—— 质量标准的"裁判"

评估器是专门用于评判的"元 Agent"。它拥有独立的评估 Prompt、挂载的 Skills/MCP 能力以及结构化的输出定义。每个评估器专注于特定的质量维度(如回复准确性、工具使用正确性、安全合规等)。

评估任务 —— 评估过程的"赛场"

定义评估的执行逻辑,将数据来源(链路、日志、数据集)与评估器绑定,配置采样规则与运行策略。

评估分析 —— 价值挖掘的"洞察中心"

对评估产出的海量数据进行聚合与探查。通过可视化看板、智能化诊断和样本明细,帮助用户从宏观趋势下钻到微观 Case,完成问题的精准定位。

评估流程

AgentLoop 建议遵循以下闭环流程进行评估:

  1. 定义标准: 创建或选择预置评估器。

  2. 配置任务: 选定数据源、采样策略并挂载评估器。

  3. 自动化执行: 系统自动对采样数据进行逐条推理与打分。

  4. 洞察分析: 通过分析模块进行多维过滤、趋势观察并利用"智能化分析"发现潜在规律。

  5. 优化迭代: 基于分析结论定位 Bad Case,调整配置后重新验证。

评估分析的核心能力

分析页面(Explorer)为用户提供了强大的数据拆解工具,支持以下核心能力:

  • 宏观效能看板: 实时监控评估数据量、平均分分布及耗时趋势,快速感知质量波动。页面顶部以统计卡片形式呈现「评估数据量」「评估器运行总次数」「整体耗时分布」三大核心指标,提供一目了然的全局视图。

  • 多维聚合检索: 提供灵活的属性过滤器(如评估器版本、数据来源、特定 Agent、分值区间等),支持通过自然语言或结构化语法搜索特定样本。左侧面板内置多组预设筛选维度,包括评估器名称、评分区间、数据来源类型等,可自由组合缩小范围。

  • 样本深度钻取: 支持从列表一键进入"轨迹(Trace)"详情,查看 AI 决策的每一步细节及评估器的打分依据。每条评估记录均展示输入摘要、评估得分及评估理由,点击即可展开完整的推理过程。

典型应用场景

  • 上线前严选(离线评估): 确保发布前的 Agent 核心指标达到准入基线。

  • 生产环境监控(在线评估): 实时抽样线上流量,第一时间捕获因模型波动或业务变更导致的质量劣化。

  • 回归测试与对比: 量化不同版本 Agent 在同一数据集下的表现差异。

  • 根因归因诊断: 针对低分 Case,利用分析模块的过滤器和轨迹图,精准定位是 Prompt 问题、工具失效还是模型幻觉。

模块入口

在 AgentLoop 控制台左侧导航栏中,点击「评估」进入。模块顶部包含三个核心页签:

  • 评估任务: 负责任务的创建、状态监控及历史运行记录管理。

  • 评估器: 负责评估标准的资产管理、创建与调试。

  • 分析: 负责对评估结果进行多维探查、智能诊断和样本对比。