云监控2.0支持对大模型的输入输出、Agent的tool调用等文本内容进行评估,即通过系统化的方法,从多维角度对大模型的输出、行为和效果进行动态监测和分析。您可以创建评估任务,查看评估任务列表,查看评估结果,评估结果包含评分明细、输入语义分析、主题分布分析、评分大盘。
评估采用LLM作为评估器,选择不同的任务,由大模型给出结论。
评估任务说明
评估任务按照结果形式分为两种:
结果以评分表示,附加一个评分解释。
结果为语义评估,从原始内容富化出主题、总结等语义信息。
评估任务按照任务场景分为以下几种:
通用场景评估
语义评估
Rag评估
Agent评估
工具使用评估
一、通用场景评估
0分表示需要关注,1分表示不需要关注,介于0-1分之间表示部分需要关注。
序号 | 评估任务 | 0分 | 1分 |
1 | 准确度 | 表示完全不准确 | 表示完全准确 |
2 | 计算器正确性 | 表示完全不正确 | 表示完全正确 |
3 | 简洁性 | 表示完全不简洁 | 表示完全简洁 |
4 | 包含代码 | 表示包含代码 | 表示不包含代码 |
5 | 包含个人身份信息 | 表示包含个人身份信息 | 表示不包含个人身份信息 |
6 | 上下文相关性 | 表示完全不相关 | 表示完全相关 |
7 | 禁忌词 | 表示包含禁忌词 | 表示不包含禁忌词 |
8 | 幻觉 | 表示存在幻觉 | 表示完全没有幻觉 |
9 | 仇恨言论 | 表示包含仇恨言论 | 表示不包含仇恨言论 |
10 | 有用性 | 表示完全无用 | 表示非常有用 |
11 | 语言检测器 | 表示无法检测语言 | 表示准确检测语言 |
12 | 开源 | 表示开源 | 表示非开源 |
13 | 问题与Python相关 | 表示与Python相关 | 表示与Python无关 |
16 | 毒性 | 表示有毒性 | 表示无毒性 |
二、语义评估
语义评估是对数据进行语义理解和处理,包括以下功能。
实体信息抽取(NER)
从文本中抽取出原始的实体信息,包括人名、地名、组织名、公司名、时间表达、货币金额、百分比表达、法律文件、国家/地区/政治实体、自然现象、艺术作品、事件、语言、标题、图片和链接等。
格式信息提取
提取 Markdown 或其他文本格式中的标题、列表、强调字体(粗体/斜体)、链接名称和 URL、图片地址、代码块、表格等内容。
对表格进行特殊处理,将每个表格转换为 JSON 格式,其中每一列对应一个 key 和 value。
重点词汇抽取
从长文本中抽取出代表语义的核心词汇,用于描述文本的主要含义。
数值信息抽取
提取文本中出现的数值及其相关信息,如温度、价格等。
抽象信息抽取
用户意图识别:识别用户意图,如查询检索、文本润色、决策判定、操作指导等。
文本摘要 :用几句话描述文本内容,每句话描述一个话题。
情绪分类:判断文本情绪为正面、负面或中性。
主题分类 :对文本涉及的主题进行分类,如体育、政治、科技等。
角色分类:识别文本中涉及的角色,如系统、用户、医生等。
语言分类:识别文本使用的语言,如中文、英文等。
生成相关问题
针对给定文本,从不同角度提出若干个可以由文本内容回答的问题。
三、Rag评估
序号 | 评估任务 | 0分 | 1分 |
1 | Rag召回语料和问题的相关性 | 完全不相关 | 完全相关 |
2 | Rag召回语料和答案的相关性 | 完全不相关 | 完全相关 |
3 | Rag语料是否存在重复 | 完全重复 | 完全不重复 |
4 | Rag语料的多样性 | 多样性最差 | 多样性最好 |
四、Agent评估
序号 | 评估任务 | 0分 | 1分 |
1 | Agent指令是否清晰 | 不清晰 | 清晰 |
2 | Agent规划是否有错误 | 存在错误 | 正确 |
3 | Agent任务是否复杂 | 复杂 | 不复杂 |
4 | Agent执行路径是否存在错误 | 有错误 | 无错误 |
5 | Agent是否最终达到了目标 | 未达到目标 | 达到了目标 |
6 | Agent执行路径是否简洁 | 不简洁 | 简洁 |
五、工具使用评估
序号 | 评估任务 | 0分 | 1分 |
1 | 规划是否调用了工具 | 否 | 是 |
2 | 遇到错误参数时,是否修正了错误的参数 | 未修正错误 | 修正了错误 |
3 | 工具调用的正确性 | 错误 | 正确 |
4 | 工具参数是否有错误 | 有错误 | 无错误 |
5 | 工具调用效率 | 效率较低 | 效率较高 |
6 | 工具是否合适 | 不合适 | 合适 |