本文为您介绍如何查看模型评测的结果。
查看结果
在百炼的模型评测页面,当任务的评测状态为已完成时,单击操作列的结果查看。
单击操作列的下载,可以将模型评测结果报告下载到本地(xlsx格式)。
人工评测
人工评测报告
在人工评测报告页(如下图所示),您可以:
查看当前人工评测任务的评测类型、评测数量(评测集中Prompt的总数量),已标注量(已完成评价的Prompt总数量)、未标注量,以及评测进度。
查看所有参评模型的模型名称,以及各自的名次分布(名次分布仅在对比评测的结果中展示,展示所有参评模型各自的领先回数和平均名次)。
查看综合评价(参评模型各自的评价基于不同维度的统计分布)。
查看任务详情:单击查看任务详情,右侧边栏中将展示当前人工评测任务的创建配置,包括评测方式、评测集、维度模板(支持展开查看)等信息。
单击下载评测集,将当前人工评测任务使用的评测集下载到本地(xlsx格式)。
单击下载评测结果,将当前人工评测任务的评测结果报告下载到本地(xlsx格式)。
评测题目明细
在评测题目明细页(如下图所示),您可以查看评测集中所有Prompt及其相应的标注状态。
标注状态 | 说明 |
已打标 | 表示评分员已对该Prompt的模型输出进行了评价。 |
未打标 | 表示评分员尚未对该Prompt的模型输出进行评价。 |
单击Prompt右侧的查看,可以跳转至相应Prompt的详情页。
查看Prompt详情:在Prompt详情页(如下图所示),您可以查看该Prompt的评测集结果(评测集中的参考答案)、结果(参评模型基于Prompt生成的输出)以及评测结果(评分员基于模型输出给出的人工评价)。单击下一个可以查看下一条Prompt的详情。
自动评测
自动评测报告
在自动评测报告页(如下图所示),您可以:
查看当前自动评测任务的评测类型、评测方式、AI评测器(如果有进行AI评测)、评测集总量(评测集中Prompt的总数量)、已完成量(已被打分的Prompt总数量)、未完成量,以及评测进度。
查看所有参评模型的模型名称、以及各自的自动化指标得分和AI评测指标得分(如果有进行AI评测)。
当前仅对比模式支持生成AI评测指标-对比报告(提供胜负平率等统计数据,帮助您更直观地对比两个模型在主观开放类或复杂问答类任务上的表现)。
查看任务详情:单击查看任务详情,右侧边栏中将展示当前自动评测任务的创建配置,包括评测类型、评测集、Prompt评分模板等信息。
单击下载评测集,将当前自动评测任务使用的评测集下载到本地(xlsx格式)。
单击下载评测结果,将当前自动评测任务的评测结果报告下载到本地(xlsx格式)。
评测题目明细
在评测题目明细页(如下图所示),您可以查看评测集中所有Prompt。单击Prompt右侧的查看,可以跳转至相应Prompt的详情页。
查看Prompt详情:在Prompt详情页(如下图所示),您可以查看此Prompt的评测集结果(评测集中的参考答案)、结果(参评模型基于Prompt生成的输出)。
下图中准确率为0的原因:只有当Prompt的评测集结果和结果完全一致时,才会被纳入准确率的计算。
查看自动化指标得分:百炼会根据Bleu、Rouge、F1等一系列预设的深度学习指标,对参评模型基于当前Prompt生成的输出进行评分。
查看AI评分:如果有进行AI评测,将展示由AI评测器根据设定的Prompt评分模板,对参评模型基于当前Prompt生成的输出进行评分。单击原因查看AI评测器给出该评分的详细原因。
单击下一个可以查看下一条Prompt的详情。
评分指标解读
指标名称 | 用途 | 说明 |
准确率 | 用于评估模型正确执行给定任务的能力。 | 完全正确(即模型的输出与评测集中的参考答案完全一致)的Prompt数量与评测集中Prompt的总数量的比例。 |
F1 | 用于评估模型在文本分类任务中的性能。 | F1分值表示模型的精确率和召回率的调和平均数。该分值的范围是从0到1,值越接近1表示模型的文本分类能力越强。 |
Rouge-1 | 用于评估模型生成的文本摘要的质量。 | Rouge-1分值表示将模型输出的结果和评测集中的参考答案按Unigram拆分后,计算得到的召回率。该分值的范围是从0到1,值越接近1表示模型的输出越贴近参考答案。 Unigram:指将文本中的每个单词或符号,单独作为一个基本单元(因此无需分析词序关系)。 |
Rouge-2 | Rouge-2分值表示将模型输出的结果和评测集中的参考答案按Bigram拆分后,计算得到的召回率。该分值的范围是从0到1,值越接近1表示模型的输出越贴近参考答案。 Bigram:是指文本中每个连续的两个单词或符号形成的组合,作为一个基本单元(因此可以用来分析两个单词之间的词序关系,这对于预测下一个词的可能性非常有用)。 | |
Rouge-L | Rouge-L分值表示先找到模型输出的结果和评测集中的参考答案的最长公共子序列,随后计算得到的召回率。该分值的范围是从0到1,其中1表示完全匹配,0表示完全不匹配。需要说明的是,这个指标特别适合评估文本的流畅性和连贯性,因为它在计算时会考虑整个句子的结构,而不仅仅是词汇维度的匹配。 最长公共子序列:指多个文本(至少两个)中均出现的最长的子序列。 | |
Bleu-4 | 用于评估模型机器翻译的质量。 | Bleu-4分值是用于评估模型输出的结果和评测集中的参考答案的差异的指标,值为Unigram、Bigram、Trigram,以及4-grams的加权平均。该分值的范围是从0到1,其中1表示模型输出的结果与参考答案文本完全匹配,0表示完全不匹配。 Trigram:指将文本中的每个连续相邻的三个单词或符号形成的组合,作为一个基本单元,用于描述三个单词之间的词序关系(由于 Trigram 提供了更多的上下文信息,可以更准确地预测文本中的下一个词)。 4-grams:指将文本中的每个相邻的四个单词或符号,作为一个基本单元,用于描述四个单词之间的词序关系(4-grams 进一步增加了上下文的信息,可以更精确地预测文本序列)。 |
基线评测
在基线评分总览页,您可以查看基于先前选定标准榜单的评分结果。
通常情况下,您需要进行多次基线评测。例如通过比较模型调优前后不同版本模型之间的综合得分差异,来判定模型在各项通用能力(比如C-Eval,MMLU等)上是否有所提升或下降。
基线评分明细(仅C-Eval 和 MMLU 榜单支持展示)将展示不同学科和主题相关的得分明细。
下一步
如果您对参评模型的效果感到满意,即可开始模型调用,将模型集成到您的业务链路中。
如果您不满意所有参评模型的效果,可以选择其他模型重新评测,或者继续阅读下方优化建议部分。
优化建议
模型评测的结果报告是您进一步优化模型效果的依据。您需要结合报告分析模型的输出,识别其具体不足之处。
在优化模型效果的方法中,Prompt工程和插件调用的成本明显低于模型调优。您可以前往百炼的Prompt最佳实践和插件概述学习相关知识,帮助您在不进行模型调优的情况下激发模型的最大潜力。
如果模型输出频繁出现以下缺陷,建议您考虑引入RAG知识库。
模型的输出和参考答案完全无关(模型明显缺失相关的背景知识)。
模型的输出和参考答案部分相关(模型有背景知识但已过时)。
最后您也可以考虑学习并通过阿里云大模型ACA认证,该认证配套的免费课程能帮助您系统了解大模型的能力和应用场景,以及如何优化大模型。