查看评估结果

更新时间:
复制为 MD 格式

评估任务完成后,您可以进入任务详情页查看全方位的分析报告。报告通过多维度的可视化图表和明细数据,帮助您快速识别 AI 应用在质量、性能及 Token 消耗方面的表现。

操作步骤

  1. 登录云监控 2.0 控制台,选择目标工作空间。

  2. 选择左侧导航栏的所有功能,选择AI 应用可观测 > 评估

  3. 在评估任务列表中,找到目标任务,单击操作列的评估结果。系统将弹出评估大盘页面,展示该任务的详细分析报告。

任务总览

页面顶部展示评估任务的核心概览指标,帮助您快速掌握任务执行的整体规模:

指标

说明

评估量

累计执行的评估次数

成功量

评估成功的次数

失败量

评估失败的次数

平均评分

基于所有已选评估器计算出的综合平均分,范围为0-1.0

评估器数量

本次任务使用的评估维度总数(如上下文相关性、多样性、答案相关性等)

评估使用模型数量

执行评估任务所消耗的 LLM 裁判模型种类数量

评分概览

该模块通过量化指标和可视化图表展现 AI 应用的回答质量。

评估器分析表

以表格形式列出每个评估器的具体表现,包含以下信息:

列名

说明

评估器名称

评估维度的名称,如上下文相关性、多样性、答案相关性、重复性等

评分指标

评估器的内部标识,如 rag_context_relevancerag_diversity

评估总数

该评估器执行的总次数

成功数/失败数

评估成功和失败的次数

成功率

评估器运行的稳定性指标

平均分

该评估器的平均评分

最低分/最高分

评分的最小值和最大值

标准差

反映评分的波动情况

可视化分布图

  • 评分分布柱状图:展示分值在 0.0-1.0 各区间(如 0.0-0.2、0.2-0.4 等)的分布频率,帮助您了解整体评分的集中趋势。

  • 评分等级分布饼图:将评分划分为以下等级,通过饼图直观展示各等级的质量占比。

等级

分值范围

很差

< 0.3

较差

0.3 - 0.5

中等

0.5 - 0.7

良好

0.7 - 0.9

优秀

≥ 0.9

  • 评估量分布饼图:展示不同评估器在总任务中的数据贡献占比。

评估性能与成本分析

该模块关注评估过程的响应效率与资源消耗。

性能指标

展示评估过程的延迟统计信息:

指标

说明

avg_latency_ms

平均评估延迟(毫秒)

max_latency_ms

最大评估延迟(毫秒)

min_latency_ms

最小评估延迟(毫秒)

延迟分布图

以柱状图形式展示响应时间在不同区间的集中程度,帮助您识别评估过程中的性能瓶颈。

Token 消耗

展示评估过程中的 Token 使用情况:

指标

说明

avg_total_tokens

平均每次评估消耗的 Token 数量

sum_total_tokens

评估过程中消耗的 Token 总数

  • Token 消耗占比饼图:分析各评估器(如上下文相关性、答案相关性等)在 Token 消耗上的支出比例,帮助您优化成本。

评分明细

在评分明细表格中,您可以针对每一次具体的评估进行追溯和复盘。表格包含以下字段:

字段

说明

name

评估器的显示名称

evaluator

评估器的标识符

score

本次评估的得分

explanation

LLM 裁判给出该分数的详细推理过程,帮助您理解模型为什么打高分或低分

eval_info

评估的附加信息

status

处理状态,如"处理成功"

eval_metrics

详细的底层元数据(JSON 格式),包括 Token 消耗(input_tokens、output_tokens、total_tokens)和执行延迟(latency)

traceId

调用链追踪 ID,单击可跳转至调用链分析页面

spanId

Span ID,单击可查看产生该条回答的完整上下文及中间链路

通过 traceIdspanId 的关联功能,您可以快速定位到具体的调用链,分析产生该评分结果的完整上下文。