云监控 2.0 提供的评估功能支持对基础 LLM 对话、RAG(检索增强生成)流程及 Agent 工具调用进行全场景覆盖。通过创建评估任务,您可以实现对 AI 应用行为的精准观测、量化打分与成本分析。
前提条件
已在接入中心完成 AI 应用可观测的接入。
创建评估任务
登录 AgentLoop控制台,然后选择目标工作空间。
在左侧导航栏,选择评估下的评估任务。
在评估列表页面,单击新建评估任务进行配置。
基础配置
参数
说明
任务名称
必填。输入评估任务名称。任务名称不可与已有任务重复。
任务描述
输入评估任务的描述信息,限 100 字符以内。
数据来源
选择数据源类型:
链路(默认):基于应用调用链数据评估。
模型日志:基于模型日志评估。
数据集:基于离线数据集评估。暂未上线。
链路类型
数据来源为链路时必填,选择评估的链路数据层级:
Span(默认):针对调用链中的单个操作节点进行评估。
Trace:针对整条调用链路进行评估。
过滤条件
选择链路数据来源时必填。精准锁定需要评估的数据范围(例如按服务名、属性等进行筛选)。当数据来源为链路且链路类型为 Span 时,可通过搜索栏设置筛选条件。
Project
当数据来源为日志时,从下拉列表中选择目标 SLS Project。
LogStore
当数据来源为日志时,从下拉列表中选择目标 LogStore。
说明切换数据来源或链路类型时,如果已选择了评估器,系统会弹出确认对话框提示将清空已选评估器,确认后才会执行切换。
采样配置:采样配置用于控制评估任务的数据采样策略,平衡评估覆盖度与成本。
采样比例(1%-100%):设置数据抽样比例,默认 100%,高采样率能发现长尾问题,但会增加 Token 消耗。
最大样本数(1-10000):设置单次评估的任务上限,默认 100 条。此参数是控制成本的“熔断器”。
运行策略:运行策略决定评估任务的执行方式,支持两种模式,您可以同时启用以下两种模式,以覆盖不同时间维度的监控需求。
模式 A:基于新数据持续评估
原理:系统按固定调度间隔自动检测新产生的数据并执行打分。
数据延迟 (0~60 min):仅 Trace 类型可用。建议设置 5-10 分钟延迟,确保分布式链路数据完整采集后再开始评估。
模式 B:基于历史数据评估
原理:针对指定历史时间段的数据执行一次性“回溯测试”,常用于复盘或基准对比。
选择评估器:评估器是执行评分的核心组件。系统提供预置评估器,也支持自定义。
通用
评估器
标识
说明
毒性
toxicity
检测是否包含冒犯性语言。
安全性
security
评估是否符合安全合规要求。
完整性
completeness
评估是否覆盖必要信息。
连贯性
coherence
评估逻辑是否通顺。
工具使用
评估器
标识
说明
工具选择正确性
tool_call_correctness
评估是否选择了正确的工具。
工具参数正确性
tool_param_correctness
评估工具参数是否准确。
RAG 评估
评估器
标识
说明
重复性
rag_context_duplicate
检测检索上下文是否存在冗余。
上下文相关性
rag_context_relevance
评估检索内容与问题的匹配程度。
答案相关性
rag_answer_relevance
评估答案是否正面回答问题。
多样性
rag_diversity
评估生成内容的信息丰富度。
Agent评估
评估器
标识
说明
Agent 轨迹质量
agent_trajectory_quality
评估 Agent 执行轨迹的整体质量和合理性。
Agent 工具选择合理性
agent_tool_selections_rationality
评估 Agent 在执行过程中工具选择的合理性。
Agent 工具调用成功率
agent_tool_call_success_rate
评估 Agent 工具调用的成功率。
说明针对已选中评估器,在“已选列表”中,您可以点击编辑图标,对预置评估器的 变量映射 或 过滤条件 进行微调。
单击保存并运行。系统将验证配置的完整性:
至少需要选择一个评估器。
任务名称不可与已有任务重复(仅新建和复制时校验)。
说明:对于已完结的评估任务(已完成、失败、已终止状态),编辑后点击"保存并运行",会产生新的运行记录,不会覆盖历史运行记录,您可以在任务详情的运行日志中查看所有运行记录。
查看任务列表与详情
评估任务列表说明
通过评估任务列表全局掌握所有评估任务的执行状态、质量分布及成本消耗,实现对 AI 落地质量的精细化治理。
筛选与搜索
评估任务列表页面顶部提供多维度的筛选和搜索功能,帮助您快速定位目标任务。
筛选项 | 说明 |
状态筛选 | 按任务状态筛选,支持的状态包括:待处理、运行中、已完成、调度中、失败、已终止。支持清除筛选条件。 |
数据来源筛选 | 按数据源类型筛选,支持:链路(trace)、日志(log)。支持清除筛选条件。 |
任务名称搜索 | 输入任务名称关键字,单击搜索按钮进行模糊搜索。 |
任务列表表格
列表以表格形式展示所有评估任务,包含以下列:
列名 | 说明 |
任务名称 | 显示任务名称(单击可进入任务详情页)和任务 ID。支持按名称快速导航。 |
数据来源 | 显示任务的数据源类型:链路或日志。 |
评估器 | 以标签形式展示该任务配置的所有评估器名称。 |
近7天评估结果 | 展示最近 7 天内的评估统计摘要,包括:成功数、失败数、总数,以及进度条展示成功率。 |
近7天 Token 消耗 | 展示最近 7 天内的 Token 消耗情况,包括:总 Token 数、输入 Token 数、输出 Token 数。 |
状态 | 以图标+文字的形式显示任务当前状态。 |
创建时间 | 任务创建时间,支持排序。 |
修改时间 | 任务最后修改时间,支持排序。 |
操作 | 提供针对单条任务的操作按钮,详情请参见管理评估任务。 |
任务状态说明
了解任务状态有助于您判断系统处理进度:
调度中/待处理:任务已进入队列,等待计算资源分配。
运行中:评估引擎正在对样本进行实时/离线打分。
已完成:本轮次评估结束,所有样本已生成评估结果。
失败:执行中断,通常由于模型接口超时或凭证失效导致。
已终止:用户手动停止了正在运行的评估流程。
快捷操作与批量管理
实时刷新:点击列表右上角的刷新图标。在观察大规模评估任务进展或监控实时 Token 消耗时,配合此操作获取最新快照。
批量治理:
多选操作:通过左侧复选框勾选目标任务。
清理与维护:支持批量删除历史或无效任务。(删除操作不可撤销)
评估详情查看
评估任务详情页提供任务的全方位信息,包括任务概览统计、评分分布分析、运行日志和评估结果。您可以在此页面监控任务执行情况、分析评估效果并追溯具体评估记录。
任务信息
任务详情页顶部展示任务的基本信息和操作按钮。
基础信息:展示任务名称(后缀:质量评估)、唯一 ID 、描述信息、创建时间及当前实时状态。
管理操作:
编辑任务:调整评估器配置或运行策略。
启动/终止运行:根据任务状态,手动触发增量评估或紧急中断执行。
即时刷新:手动同步最新评估进度与统计快照。
概览
概览标签页展示评估任务的整体统计数据和得分分布情况。
任务统计概览:页面顶部以卡片形式展示以下核心指标:
指标
说明
已完成
累计已处理的评估条数。
成功
评估成功的条数。
成功率
评估成功率,评估流程本身的稳定性指标。若成功率低,通常需检查评估模型接口稳定性。计算公式:成功数 / 总数 × 100%。
平均分
基于所有成功评估计算的综合平均分,范围 0~1.00。
得分分布分析:以表格形式展示每个评估器的详细表现,帮助您对比不同评估维度的效果。
评分分布图:采用彩色热力条展示各分段比例。
很差 (<0.3) | 较差 (0.3-0.5) | 中等 (0.5-0.7) | 良好 (0.7-0.9) | 优秀 (≥0.9)
性能指标:展示各评估器的平均耗时,评估次数、成功率、平均分等关键指标。
Token 洞察:按评估器统计 Token 消耗,精准掌控评估审计成本。
运行记录
运行记录标签页记录该任务历史上的每一次执行批次(Run),是进行版本对比和审计的基础。
记录标识 (Run ID):每次点击“启动”生成的唯一批次 ID。点击 ID 可一键跳转至该批次对应的评估结果。
运行模式:区分“持续评估(实时监控)”与“历史数据评估(历史回溯)”。
执行指标统计:
完成率与成功数:掌握该批次任务的完成进度。
平均分:对比不同时间点、不同版本的得分波动。
成本:详细记录该次运行产生的总 Token 消耗。
其它信息:适用持续评估类型,额外展示评估频率和数据时间范围。
运行控制:支持针对单个“运行中”或“待处理”的记录进行手动终止,而不影响其他历史记录,停止后的影响:
正在进行的评估请求将被中断。
已完成的评估结果不受影响。
该记录状态变为"已终止"。
评估结果
评估结果标签页提供评估数据的详细查询和分析功能。详情请参见查看评估结果。
说明:从运行日志中单击记录 ID 跳转到评估结果时,会自动将该记录 ID 设置为筛选条件,方便您查看特定运行记录的评估详情。
管理评估任务
评估任务创建后,您可以对其进行全生命周期的精细化管理。包含在列表页与详情页执行启动、停止、编辑、克隆及清理操作。
操作权限与状态对照表
下表列出了各任务状态下可执行的操作:
任务状态 | 启动 | 停止 | 编辑 | 复制 | 删除 | 适用场景说明 |
待处理 / 调度中 | - | ✓ | ✓ | ✓ | ✓ | 任务排队中,可随时中止或微调。 |
运行中 | - | ✓ | ✓ | ✓ | ✓ | 正在消耗资源,仅支持停止或克隆配置。 |
已完成 | ✓ | - | ✓ | ✓ | ✓ | 评估结束,可作为基准或重新发起。 |
失败 | ✓ | - | ✓ | ✓ | ✓ | 需编辑配置并重新启动以修复问题。 |
已终止 | ✓ | - | ✓ | ✓ | ✓ | 人工介入后的静默状态。 |
启动任务
适用于“已完成、失败、已终止”状态的任务。当需要对新产生的数据进行评估,或在调整策略后重新跑分时使用。
操作方式(以下两种方式均可):
评估任务列表页:在评估任务列表的操作列中,单击启动图标(▶)。系统将跳转到任务编辑页面,并自动定位到运行策略配置区域(高亮闪烁提示)。您可以调整运行策略后,单击保存并运行。
评估任务详情页:在任务详情页右上角,单击开启运行按钮。同样会跳转到编辑页面的运行策略区域。
对已完结的任务执行启动操作,会产生新的运行记录,历史运行记录不受影响。您可以在运行日志中查看所有历史和新的运行记录。
停止任务
适用于“待处理、运行中、调度中”状态的任务。用于紧急中断高成本任务或错误的配置任务。
操作方式(以下两种方式均可):
评估任务列表页:在评估任务列表的操作列中,单击停止图标(⏹)。系统弹出确认对话框,确认后任务状态变为"已终止"。
评估任务详情页:在任务详情页右上角,单击终止运行按钮。系统弹出终止确认对话框,展示任务名称、任务 ID、当前状态信息。
任务终止后的影响:
立即中断:所有排队中或正在执行的评估请求将立即停止。
结果保留:已完成的评估结果将被保留,您可正常查看。
调度中断:若是持续评估任务,自动调度将被挂起,直至下次手动启动。
编辑任务
您可以修改评估任务的配置,包括任务描述、样本配置、运行策略、评估器选择等。
操作方式(以下两种方式均可):
评估任务列表页:在评估任务列表的操作列中,单击编辑图标。
评估任务详情页:在任务详情页右上角,单击编辑任务按钮。
编辑模式下,任务名称和数据来源类型不可修改。
对已完结的评估任务(已完成、失败、已终止),编辑后点击"保存并运行"会产生新的运行记录,不会覆盖历史运行记录。
复制任务
基于现有任务的配置快速创建一个新的评估任务。
操作方式:
在评估任务列表的操作列中,单击复制图标。系统将跳转到复制页面,并自动填充原任务的所有配置信息,任务名称自动追加"-副本"后缀。您可以修改配置后保存。
删除任务
删除不再需要的评估任务。
操作方式:
单条删除:在评估任务列表的操作列中,单击更多图标
,选择删除。系统弹出确认对话框,确认后执行删除。批量删除:在评估任务列表中,通过左侧复选框选中多条任务,然后单击列表底部的批量删除按钮。系统弹出确认对话框,显示将要删除的任务数量,确认后执行批量删除。
删除操作不可恢复,任务的所有配置和关联数据将被永久删除。请谨慎操作。