创建及管理评估任务

更新时间:
复制为 MD 格式

云监控 2.0 支持对大模型输入输出、RAG 过程和 Agent 工具调用进行评估。通过创建评估任务,可以从多维角度监测和分析 AI 应用的行为和效果。

前提条件

已在接入中心完成 AI 应用可观测的接入。

创建评估任务

  1. 登录云监控 2.0 控制台,然后选择目标工作空间。

  2. 在左侧导航栏的所有功能中,选择 AI 应用可观测评估

  3. 选择评估,在评估列表页面,单击新建评估任务

  4. 进行配置。

    • 基础配置

      参数

      说明

      任务名称

      必填。输入评估任务名称。

      数据来源

      选择数据源类型:

      • 链路(默认):基于应用调用链数据评估。

      • 模型日志:基于模型日志评估。暂未上线。

      • 数据集:基于离线数据集评估。暂未上线。

      AI 应用

      选择链路数据来源时必填。选择目标 AI 应用。

      时间范围

      设置数据拉取的时间段。

    • 选择评估器,评估器是执行评分的核心组件。系统提供预置评估器,也支持自定义。

      • 通用

        评估器

        标识

        说明

        毒性

        toxicity

        检测是否包含冒犯性语言。

        安全性

        security

        评估是否符合安全合规要求。

        完整性

        completeness

        评估是否覆盖必要信息。

        连贯性

        coherence

        评估逻辑是否通顺。

      • 工具使用

        评估器

        标识

        说明

        工具选择正确性

        tool_call_correctness

        评估是否选择了正确的工具。

        工具参数正确性

        tool_param_correctness

        评估工具参数是否准确。

      • RAG 评估

        评估器

        标识

        说明

        重复性

        rag_context_duplicate

        检测检索上下文是否存在冗余。

        上下文相关性

        rag_context_relevance

        评估检索内容与问题的匹配程度。

        答案相关性

        rag_answer_relevance

        评估答案是否正面回答问题。

        多样性

        rag_diversity

        评估生成内容的信息丰富度。

      • 自定义评估器:单击新建自定义评估器,可编写自定义 Prompt 或评估逻辑。详情请参见自定义评估任务

  5. 单击保存并运行

管理评估任务

在评估列表页面,可查看所有评估任务。支持以下操作:

操作

说明

评估结果

查看评分结果和分析报告。

任务详情

查看配置信息和运行日志。

复制

创建任务副本。

删除

删除任务。删除后不可恢复。