创建及管理评估任务

更新时间:
复制为 MD 格式

云监控 2.0 提供的评估功能支持对基础 LLM 对话、RAG(检索增强生成)流程及 Agent 工具调用进行全场景覆盖。通过创建评估任务,您可以实现对 AI 应用行为的精准观测、量化打分与成本分析。

前提条件

已在接入中心完成 AI 应用可观测的接入。

创建评估任务

  1. 登录 AgentLoop控制台,然后选择目标工作空间。

  2. 在左侧导航栏,选择评估下的评估任务

  3. 在评估列表页面,单击新建评估任务进行配置。

    • 基础配置

      参数

      说明

      任务名称

      必填。输入评估任务名称。任务名称不可与已有任务重复。

      任务描述

      输入评估任务的描述信息,限 100 字符以内。

      数据来源

      选择数据源类型:

      • 链路(默认):基于应用调用链数据评估。

      • 模型日志:基于模型日志评估。

      • 数据集:基于离线数据集评估。暂未上线。

      链路类型

      数据来源为链路时必填,选择评估的链路数据层级:

      Span(默认):针对调用链中的单个操作节点进行评估。

      Trace:针对整条调用链路进行评估。

      过滤条件

      选择链路数据来源时必填。精准锁定需要评估的数据范围(例如按服务名、属性等进行筛选)。当数据来源为链路且链路类型为 Span 时,可通过搜索栏设置筛选条件。

      Project

      当数据来源为日志时,从下拉列表中选择目标 SLS Project。

      LogStore

      当数据来源为日志时,从下拉列表中选择目标 LogStore。

      说明

      切换数据来源或链路类型时,如果已选择了评估器,系统会弹出确认对话框提示将清空已选评估器,确认后才会执行切换。

    • 采样配置:采样配置用于控制评估任务的数据采样策略,平衡评估覆盖度与成本。

      • 采样比例(1%-100%):设置数据抽样比例,默认 100%,高采样率能发现长尾问题,但会增加 Token 消耗。

      • 最大样本数(1-10000):设置单次评估的任务上限,默认 100 条。此参数是控制成本的“熔断器”。

    • 运行策略:运行策略决定评估任务的执行方式,支持两种模式,您可以同时启用以下两种模式,以覆盖不同时间维度的监控需求。

      • 模式 A:基于新数据持续评估

        • 原理:系统按固定调度间隔自动检测新产生的数据并执行打分。

        • 数据延迟 (0~60 min):仅 Trace 类型可用。建议设置 5-10 分钟延迟,确保分布式链路数据完整采集后再开始评估。

      • 模式 B:基于历史数据评估

        • 原理:针对指定历史时间段的数据执行一次性“回溯测试”,常用于复盘或基准对比。

    • 选择评估器:评估器是执行评分的核心组件。系统提供预置评估器,也支持自定义。

      • 通用

        评估器

        标识

        说明

        毒性

        toxicity

        检测是否包含冒犯性语言。

        安全性

        security

        评估是否符合安全合规要求。

        完整性

        completeness

        评估是否覆盖必要信息。

        连贯性

        coherence

        评估逻辑是否通顺。

      • 工具使用

        评估器

        标识

        说明

        工具选择正确性

        tool_call_correctness

        评估是否选择了正确的工具。

        工具参数正确性

        tool_param_correctness

        评估工具参数是否准确。

      • RAG 评估

        评估器

        标识

        说明

        重复性

        rag_context_duplicate

        检测检索上下文是否存在冗余。

        上下文相关性

        rag_context_relevance

        评估检索内容与问题的匹配程度。

        答案相关性

        rag_answer_relevance

        评估答案是否正面回答问题。

        多样性

        rag_diversity

        评估生成内容的信息丰富度。

      • Agent评估

        评估器

        标识

        说明

        Agent 轨迹质量

        agent_trajectory_quality

        评估 Agent 执行轨迹的整体质量和合理性。

        Agent 工具选择合理性

        agent_tool_selections_rationality

        评估 Agent 在执行过程中工具选择的合理性。

        Agent 工具调用成功率

        agent_tool_call_success_rate

        评估 Agent 工具调用的成功率。

        说明

        针对已选中评估器,在“已选列表”中,您可以点击编辑图标,对预置评估器的 变量映射 或 过滤条件 进行微调。

  4. 单击保存并运行。系统将验证配置的完整性:

    • 至少需要选择一个评估器。

    • 任务名称不可与已有任务重复(仅新建和复制时校验)。

    说明:对于已完结的评估任务(已完成、失败、已终止状态),编辑后点击"保存并运行",会产生新的运行记录,不会覆盖历史运行记录,您可以在任务详情的运行日志中查看所有运行记录。

查看任务列表与详情

评估任务列表说明

通过评估任务列表全局掌握所有评估任务的执行状态、质量分布及成本消耗,实现对 AI 落地质量的精细化治理。

筛选与搜索

评估任务列表页面顶部提供多维度的筛选和搜索功能,帮助您快速定位目标任务。

筛选项

说明

状态筛选

按任务状态筛选,支持的状态包括:待处理、运行中、已完成、调度中、失败、已终止。支持清除筛选条件。

数据来源筛选

按数据源类型筛选,支持:链路(trace)、日志(log)。支持清除筛选条件。

任务名称搜索

输入任务名称关键字,单击搜索按钮进行模糊搜索。

任务列表表格

列表以表格形式展示所有评估任务,包含以下列:

列名

说明

任务名称

显示任务名称(单击可进入任务详情页)和任务 ID。支持按名称快速导航。

数据来源

显示任务的数据源类型:链路或日志。

评估器

以标签形式展示该任务配置的所有评估器名称。

7天评估结果

展示最近 7 天内的评估统计摘要,包括:成功数、失败数、总数,以及进度条展示成功率。

7天 Token 消耗

展示最近 7 天内的 Token 消耗情况,包括:总 Token 数、输入 Token 数、输出 Token 数。

状态

以图标+文字的形式显示任务当前状态。

创建时间

任务创建时间,支持排序。

修改时间

任务最后修改时间,支持排序。

操作

提供针对单条任务的操作按钮,详情请参见管理评估任务

任务状态说明

了解任务状态有助于您判断系统处理进度:

  • 调度中/待处理:任务已进入队列,等待计算资源分配。

  • 运行中:评估引擎正在对样本进行实时/离线打分。

  • 已完成:本轮次评估结束,所有样本已生成评估结果。

  • 失败:执行中断,通常由于模型接口超时或凭证失效导致。

  • 已终止:用户手动停止了正在运行的评估流程。

快捷操作与批量管理

  • 实时刷新:点击列表右上角的刷新图标。在观察大规模评估任务进展或监控实时 Token 消耗时,配合此操作获取最新快照。

  • 批量治理:

    • 多选操作:通过左侧复选框勾选目标任务。

    • 清理与维护:支持批量删除历史或无效任务。(删除操作不可撤销)

评估详情查看

评估任务详情页提供任务的全方位信息,包括任务概览统计、评分分布分析、运行日志和评估结果。您可以在此页面监控任务执行情况、分析评估效果并追溯具体评估记录。

任务信息

任务详情页顶部展示任务的基本信息和操作按钮。

  • 基础信息:展示任务名称(后缀:质量评估)、唯一 ID 、描述信息、创建时间及当前实时状态。

  • 管理操作:

    • 编辑任务:调整评估器配置或运行策略。

    • 启动/终止运行:根据任务状态,手动触发增量评估或紧急中断执行。

    • 即时刷新:手动同步最新评估进度与统计快照。

概览

概览标签页展示评估任务的整体统计数据和得分分布情况。

  • 任务统计概览:页面顶部以卡片形式展示以下核心指标:

    指标

    说明

    已完成

    累计已处理的评估条数。

    成功

    评估成功的条数。

    成功率

    评估成功率,评估流程本身的稳定性指标。若成功率低,通常需检查评估模型接口稳定性。计算公式:成功数 / 总数 × 100%。

    平均分

    基于所有成功评估计算的综合平均分,范围 0~1.00。

  • 得分分布分析:以表格形式展示每个评估器的详细表现,帮助您对比不同评估维度的效果。

    • 评分分布图:采用彩色热力条展示各分段比例。

      • 很差 (<0.3) | 较差 (0.3-0.5) | 中等 (0.5-0.7) | 良好 (0.7-0.9) | 优秀 (≥0.9)

    • 性能指标:展示各评估器的平均耗时,评估次数、成功率、平均分等关键指标。

    • Token 洞察:按评估器统计 Token 消耗,精准掌控评估审计成本。

运行记录

运行记录标签页记录该任务历史上的每一次执行批次(Run),是进行版本对比和审计的基础。

  • 记录标识 (Run ID):每次点击“启动”生成的唯一批次 ID。点击 ID 可一键跳转至该批次对应的评估结果。

  • 运行模式:区分“持续评估(实时监控)”与“历史数据评估(历史回溯)”。

  • 执行指标统计:

    • 完成率与成功数:掌握该批次任务的完成进度。

    • 平均分:对比不同时间点、不同版本的得分波动。

    • 成本:详细记录该次运行产生的总 Token 消耗。

    • 其它信息:适用持续评估类型,额外展示评估频率和数据时间范围。

  • 运行控制:支持针对单个“运行中”或“待处理”的记录进行手动终止,而不影响其他历史记录,停止后的影响:

    • 正在进行的评估请求将被中断。

    • 已完成的评估结果不受影响。

    • 该记录状态变为"已终止"。

评估结果

评估结果标签页提供评估数据的详细查询和分析功能。详情请参见查看评估结果

说明:从运行日志中单击记录 ID 跳转到评估结果时,会自动将该记录 ID 设置为筛选条件,方便您查看特定运行记录的评估详情。

管理评估任务

评估任务创建后,您可以对其进行全生命周期的精细化管理。包含在列表页与详情页执行启动、停止、编辑、克隆及清理操作。

操作权限与状态对照表

下表列出了各任务状态下可执行的操作:

任务状态

启动

停止

编辑

复制

删除

适用场景说明

待处理 / 调度中

-

任务排队中,可随时中止或微调。

运行中

-

正在消耗资源,仅支持停止或克隆配置。

已完成

-

评估结束,可作为基准或重新发起。

失败

-

需编辑配置并重新启动以修复问题。

已终止

-

人工介入后的静默状态。

启动任务

适用于“已完成、失败、已终止”状态的任务。当需要对新产生的数据进行评估,或在调整策略后重新跑分时使用。

  • 操作方式(以下两种方式均可):

    • 评估任务列表页:在评估任务列表的操作列中,单击启动图标(▶)。系统将跳转到任务编辑页面,并自动定位到运行策略配置区域(高亮闪烁提示)。您可以调整运行策略后,单击保存并运行

    • 评估任务详情页:在任务详情页右上角,单击开启运行按钮。同样会跳转到编辑页面的运行策略区域。

说明

对已完结的任务执行启动操作,会产生新的运行记录,历史运行记录不受影响。您可以在运行日志中查看所有历史和新的运行记录。

停止任务

适用于“待处理、运行中、调度中”状态的任务。用于紧急中断高成本任务或错误的配置任务。

  • 操作方式(以下两种方式均可):

    • 评估任务列表页:在评估任务列表的操作列中,单击停止图标(⏹)。系统弹出确认对话框,确认后任务状态变为"已终止"。

    • 评估任务详情页:在任务详情页右上角,单击终止运行按钮。系统弹出终止确认对话框,展示任务名称、任务 ID、当前状态信息。

  • 任务终止后的影响

    • 立即中断:所有排队中或正在执行的评估请求将立即停止。

    • 结果保留:已完成的评估结果将被保留,您可正常查看。

    • 调度中断:若是持续评估任务,自动调度将被挂起,直至下次手动启动。

编辑任务

您可以修改评估任务的配置,包括任务描述、样本配置、运行策略、评估器选择等。

  • 操作方式(以下两种方式均可):

    • 评估任务列表页:在评估任务列表的操作列中,单击编辑图标。

    • 评估任务详情页:在任务详情页右上角,单击编辑任务按钮。

说明
  • 编辑模式下,任务名称和数据来源类型不可修改。

  • 对已完结的评估任务(已完成、失败、已终止),编辑后点击"保存并运行"会产生新的运行记录,不会覆盖历史运行记录。

复制任务

基于现有任务的配置快速创建一个新的评估任务。

  • 操作方式

    • 在评估任务列表的操作列中,单击复制图标。系统将跳转到复制页面,并自动填充原任务的所有配置信息,任务名称自动追加"-副本"后缀。您可以修改配置后保存。

删除任务

删除不再需要的评估任务。

  • 操作方式

    • 单条删除:在评估任务列表的操作列中,单击更多图标image,选择删除。系统弹出确认对话框,确认后执行删除。

    • 批量删除:在评估任务列表中,通过左侧复选框选中多条任务,然后单击列表底部的批量删除按钮。系统弹出确认对话框,显示将要删除的任务数量,确认后执行批量删除。

警告

删除操作不可恢复,任务的所有配置和关联数据将被永久删除。请谨慎操作。