大模型评估

云监控2.0支持对大模型的输入输出、Agenttool调用等文本内容进行评估,即通过系统化的方法,从多维角度对大模型的输出、行为和效果进行动态监测和分析。您可以创建评估任务,查看评估任务列表,查看评估结果,评估结果包含评分明细、输入语义分析、主题分布分析、评分大盘。

评估采用LLM作为评估器,选择不同的任务,由大模型给出结论。

评估任务说明

  • 评估任务按照结果形式分为两种:

    • 结果以评分表示,附加一个评分解释。

    • 结果为语义评估,从原始内容富化出主题、总结等语义信息。

  • 评估任务按照任务场景分为以下几种:

    • 通用场景评估

    • 语义评估

    • Rag评估

    • Agent评估

    • 工具使用评估

一、通用场景评估

0分表示需要关注,1分表示不需要关注,介于0-1分之间表示部分需要关注。

序号

评估任务

0

1

1

准确度

表示完全不准确

表示完全准确

2

计算器正确性

表示完全不正确

表示完全正确

3

简洁性

表示完全不简洁

表示完全简洁

4

包含代码

表示包含代码

表示不包含代码

5

包含个人身份信息

表示包含个人身份信息

表示不包含个人身份信息

6

上下文相关性

表示完全不相关

表示完全相关

7

禁忌词

表示包含禁忌词

表示不包含禁忌词

8

幻觉

表示存在幻觉

表示完全没有幻觉

9

仇恨言论

表示包含仇恨言论

表示不包含仇恨言论

10

有用性

表示完全无用

表示非常有用

11

语言检测器

表示无法检测语言

表示准确检测语言

12

开源

表示开源

表示非开源

13

问题与Python相关

表示与Python相关

表示与Python无关

16

毒性

表示有毒性

表示无毒性

二、语义评估

语义评估是对数据进行语义理解和处理,包括以下功能。

  • 实体信息抽取(NER)

    从文本中抽取出原始的实体信息,包括人名、地名、组织名、公司名、时间表达、货币金额、百分比表达、法律文件、国家/地区/政治实体、自然现象、艺术作品、事件、语言、标题、图片和链接等。

  • 格式信息提取

    提取 Markdown 或其他文本格式中的标题、列表、强调字体(粗体/斜体)、链接名称和 URL、图片地址、代码块、表格等内容。

    对表格进行特殊处理,将每个表格转换为 JSON 格式,其中每一列对应一个 key 和 value。

  • 重点词汇抽取

    从长文本中抽取出代表语义的核心词汇,用于描述文本的主要含义。

  • 数值信息抽取

    提取文本中出现的数值及其相关信息,如温度、价格等。

  • 抽象信息抽取

    • 用户意图识别:识别用户意图,如查询检索、文本润色、决策判定、操作指导等。

    • 文本摘要 :用几句话描述文本内容,每句话描述一个话题。

    • 情绪分类:判断文本情绪为正面、负面或中性。

    • 主题分类 :对文本涉及的主题进行分类,如体育、政治、科技等。

    • 角色分类:识别文本中涉及的角色,如系统、用户、医生等。

    • 语言分类:识别文本使用的语言,如中文、英文等。

  • 生成相关问题

    针对给定文本,从不同角度提出若干个可以由文本内容回答的问题。

三、Rag评估

序号

评估任务

0

1

1

Rag召回语料和问题的相关性

完全不相关

完全相关

2

Rag召回语料和答案的相关性

完全不相关

完全相关

3

Rag语料是否存在重复

完全重复

完全不重复

4

Rag语料的多样性

多样性最差

多样性最好

四、Agent评估

序号

评估任务

0

1

1

Agent指令是否清晰

不清晰

清晰

2

Agent规划是否有错误

存在错误

正确

3

Agent任务是否复杂

复杂

不复杂

4

Agent执行路径是否存在错误

有错误

无错误

5

Agent是否最终达到了目标

未达到目标

达到了目标

6

Agent执行路径是否简洁

不简洁

简洁

五、工具使用评估

序号

评估任务

0

1

1

规划是否调用了工具

2

遇到错误参数时,是否修正了错误的参数

未修正错误

修正了错误

3

工具调用的正确性

错误

正确

4

工具参数是否有错误

有错误

无错误

5

工具调用效率

效率较低

效率较高

6

工具是否合适

不合适

合适