评估任务完成后,您可以进入任务详情页查看全方位的分析报告。报告通过多维度的可视化图表和明细数据,帮助您快速识别 AI 应用在质量、性能及 Token 消耗方面的表现。
操作步骤
登录云监控 2.0 控制台,选择目标工作空间。
选择左侧导航栏的所有功能,选择AI 应用可观测 > 评估。
在评估任务列表中,找到目标任务,单击操作列的评估结果。系统将弹出评估大盘页面,展示该任务的详细分析报告。
任务总览
页面顶部展示评估任务的核心概览指标,帮助您快速掌握任务执行的整体规模:
指标 | 说明 |
评估量 | 累计执行的评估次数 |
成功量 | 评估成功的次数 |
失败量 | 评估失败的次数 |
平均评分 | 基于所有已选评估器计算出的综合平均分,范围为0-1.0 |
评估器数量 | 本次任务使用的评估维度总数(如上下文相关性、多样性、答案相关性等) |
评估使用模型数量 | 执行评估任务所消耗的 LLM 裁判模型种类数量 |
评分概览
该模块通过量化指标和可视化图表展现 AI 应用的回答质量。
评估器分析表
以表格形式列出每个评估器的具体表现,包含以下信息:
列名 | 说明 |
评估器名称 | 评估维度的名称,如上下文相关性、多样性、答案相关性、重复性等 |
评分指标 | 评估器的内部标识,如 |
评估总数 | 该评估器执行的总次数 |
成功数/失败数 | 评估成功和失败的次数 |
成功率 | 评估器运行的稳定性指标 |
平均分 | 该评估器的平均评分 |
最低分/最高分 | 评分的最小值和最大值 |
标准差 | 反映评分的波动情况 |
可视化分布图
评分分布柱状图:展示分值在 0.0-1.0 各区间(如 0.0-0.2、0.2-0.4 等)的分布频率,帮助您了解整体评分的集中趋势。
评分等级分布饼图:将评分划分为以下等级,通过饼图直观展示各等级的质量占比。
等级 | 分值范围 |
很差 | < 0.3 |
较差 | 0.3 - 0.5 |
中等 | 0.5 - 0.7 |
良好 | 0.7 - 0.9 |
优秀 | ≥ 0.9 |
评估量分布饼图:展示不同评估器在总任务中的数据贡献占比。
评估性能与成本分析
该模块关注评估过程的响应效率与资源消耗。
性能指标
展示评估过程的延迟统计信息:
指标 | 说明 |
avg_latency_ms | 平均评估延迟(毫秒) |
max_latency_ms | 最大评估延迟(毫秒) |
min_latency_ms | 最小评估延迟(毫秒) |
延迟分布图
以柱状图形式展示响应时间在不同区间的集中程度,帮助您识别评估过程中的性能瓶颈。
Token 消耗
展示评估过程中的 Token 使用情况:
指标 | 说明 |
avg_total_tokens | 平均每次评估消耗的 Token 数量 |
sum_total_tokens | 评估过程中消耗的 Token 总数 |
Token 消耗占比饼图:分析各评估器(如上下文相关性、答案相关性等)在 Token 消耗上的支出比例,帮助您优化成本。
评分明细
在评分明细表格中,您可以针对每一次具体的评估进行追溯和复盘。表格包含以下字段:
字段 | 说明 |
name | 评估器的显示名称 |
evaluator | 评估器的标识符 |
score | 本次评估的得分 |
explanation | LLM 裁判给出该分数的详细推理过程,帮助您理解模型为什么打高分或低分 |
eval_info | 评估的附加信息 |
status | 处理状态,如"处理成功" |
eval_metrics | 详细的底层元数据(JSON 格式),包括 Token 消耗(input_tokens、output_tokens、total_tokens)和执行延迟(latency) |
traceId | 调用链追踪 ID,单击可跳转至调用链分析页面 |
spanId | Span ID,单击可查看产生该条回答的完整上下文及中间链路 |
通过 traceId 和 spanId 的关联功能,您可以快速定位到具体的调用链,分析产生该评分结果的完整上下文。