云监控 2.0 支持对大模型输入输出、RAG 过程和 Agent 工具调用进行评估。通过创建评估任务,可以从多维角度监测和分析 AI 应用的行为和效果。
前提条件
已在接入中心完成 AI 应用可观测的接入。
创建评估任务
登录云监控 2.0 控制台,然后选择目标工作空间。
在左侧导航栏的所有功能中,选择 AI 应用可观测评估。
选择评估,在评估列表页面,单击新建评估任务。
进行配置。
基础配置
参数
说明
任务名称
必填。输入评估任务名称。
数据来源
选择数据源类型:
链路(默认):基于应用调用链数据评估。
模型日志:基于模型日志评估。暂未上线。
数据集:基于离线数据集评估。暂未上线。
AI 应用
选择链路数据来源时必填。选择目标 AI 应用。
时间范围
设置数据拉取的时间段。
选择评估器,评估器是执行评分的核心组件。系统提供预置评估器,也支持自定义。
通用
评估器
标识
说明
毒性
toxicity
检测是否包含冒犯性语言。
安全性
security
评估是否符合安全合规要求。
完整性
completeness
评估是否覆盖必要信息。
连贯性
coherence
评估逻辑是否通顺。
工具使用
评估器
标识
说明
工具选择正确性
tool_call_correctness
评估是否选择了正确的工具。
工具参数正确性
tool_param_correctness
评估工具参数是否准确。
RAG 评估
评估器
标识
说明
重复性
rag_context_duplicate
检测检索上下文是否存在冗余。
上下文相关性
rag_context_relevance
评估检索内容与问题的匹配程度。
答案相关性
rag_answer_relevance
评估答案是否正面回答问题。
多样性
rag_diversity
评估生成内容的信息丰富度。
自定义评估器:单击新建自定义评估器,可编写自定义 Prompt 或评估逻辑。详情请参见自定义评估任务。
单击保存并运行。
管理评估任务
在评估列表页面,可查看所有评估任务。支持以下操作:
操作 | 说明 |
评估结果 | 查看评分结果和分析报告。 |
任务详情 | 查看配置信息和运行日志。 |
复制 | 创建任务副本。 |
删除 | 删除任务。删除后不可恢复。 |