云监控2.0支持对大模型的输入输出、Agent的tool调用等文本内容进行评估,即通过系统化的方法,从多维角度对大模型的输出、行为和效果进行动态监测和分析。您可以创建评估任务,查看评估任务列表,查看评估结果,评估结果包含评分明细、输入语义分析、主题分布分析、评分大盘。
评估采用LLM作为评估器,选择不同的任务,由大模型给出结论。
评估任务说明
评估任务按照结果形式分为两种:
结果以评分表示,附加一个评分解释。
结果为语义评估,从原始内容富化出主题、总结等语义信息。
评估任务按照任务场景分为以下几种:
通用场景评估
语义评估
Rag评估
Agent评估
工具使用评估
一、通用场景评估
0分表示需要关注,1分表示不需要关注,介于0-1分之间表示部分需要关注。
序号  | 评估任务  | 0分  | 1分  | 
1  | 准确度  | 表示完全不准确  | 表示完全准确  | 
2  | 计算器正确性  | 表示完全不正确  | 表示完全正确  | 
3  | 简洁性  | 表示完全不简洁  | 表示完全简洁  | 
4  | 包含代码  | 表示包含代码  | 表示不包含代码  | 
5  | 包含个人身份信息  | 表示包含个人身份信息  | 表示不包含个人身份信息  | 
6  | 上下文相关性  | 表示完全不相关  | 表示完全相关  | 
7  | 禁忌词  | 表示包含禁忌词  | 表示不包含禁忌词  | 
8  | 幻觉  | 表示存在幻觉  | 表示完全没有幻觉  | 
9  | 仇恨言论  | 表示包含仇恨言论  | 表示不包含仇恨言论  | 
10  | 有用性  | 表示完全无用  | 表示非常有用  | 
11  | 语言检测器  | 表示无法检测语言  | 表示准确检测语言  | 
12  | 开源  | 表示开源  | 表示非开源  | 
13  | 问题与Python相关  | 表示与Python相关  | 表示与Python无关  | 
16  | 毒性  | 表示有毒性  | 表示无毒性  | 
二、语义评估
语义评估是对数据进行语义理解和处理,包括以下功能。
实体信息抽取(NER)
从文本中抽取出原始的实体信息,包括人名、地名、组织名、公司名、时间表达、货币金额、百分比表达、法律文件、国家/地区/政治实体、自然现象、艺术作品、事件、语言、标题、图片和链接等。
格式信息提取
提取 Markdown 或其他文本格式中的标题、列表、强调字体(粗体/斜体)、链接名称和 URL、图片地址、代码块、表格等内容。
对表格进行特殊处理,将每个表格转换为 JSON 格式,其中每一列对应一个 key 和 value。
重点词汇抽取
从长文本中抽取出代表语义的核心词汇,用于描述文本的主要含义。
数值信息抽取
提取文本中出现的数值及其相关信息,如温度、价格等。
抽象信息抽取
用户意图识别:识别用户意图,如查询检索、文本润色、决策判定、操作指导等。
文本摘要 :用几句话描述文本内容,每句话描述一个话题。
情绪分类:判断文本情绪为正面、负面或中性。
主题分类 :对文本涉及的主题进行分类,如体育、政治、科技等。
角色分类:识别文本中涉及的角色,如系统、用户、医生等。
语言分类:识别文本使用的语言,如中文、英文等。
生成相关问题
针对给定文本,从不同角度提出若干个可以由文本内容回答的问题。
三、Rag评估
序号  | 评估任务  | 0分  | 1分  | 
1  | Rag召回语料和问题的相关性  | 完全不相关  | 完全相关  | 
2  | Rag召回语料和答案的相关性  | 完全不相关  | 完全相关  | 
3  | Rag语料是否存在重复  | 完全重复  | 完全不重复  | 
4  | Rag语料的多样性  | 多样性最差  | 多样性最好  | 
四、Agent评估
序号  | 评估任务  | 0分  | 1分  | 
1  | Agent指令是否清晰  | 不清晰  | 清晰  | 
2  | Agent规划是否有错误  | 存在错误  | 正确  | 
3  | Agent任务是否复杂  | 复杂  | 不复杂  | 
4  | Agent执行路径是否存在错误  | 有错误  | 无错误  | 
5  | Agent是否最终达到了目标  | 未达到目标  | 达到了目标  | 
6  | Agent执行路径是否简洁  | 不简洁  | 简洁  | 
五、工具使用评估
序号  | 评估任务  | 0分  | 1分  | 
1  | 规划是否调用了工具  | 否  | 是  | 
2  | 遇到错误参数时,是否修正了错误的参数  | 未修正错误  | 修正了错误  | 
3  | 工具调用的正确性  | 错误  | 正确  | 
4  | 工具参数是否有错误  | 有错误  | 无错误  | 
5  | 工具调用效率  | 效率较低  | 效率较高  | 
6  | 工具是否合适  | 不合适  | 合适  |