什么是 AI 可观测

更新时间:
复制为 MD 格式

为 LLM 和 Agent 应用提供端到端可观测能力。通过全链路追踪、提示词管理和自动化评测,定位执行异常、量化 Token 成本、评估输出质量,解决 Agent 在生产环境中输出不可控、成本不可见的问题。

核心能力

LLM 可观测

LLM 应用涉及复杂且非确定性的交互,传统监控手段难以覆盖。AI 可观测提供全面的追踪功能,帮助清晰掌握 LLM 应用中的 Token 消耗量、调用耗时、工具调用等关键指标,并支持按不同维度切分。

  • 全链路追踪(Tracing):AI 可观测将复杂的执行过程划分为三个核心层级,实现全链路可观测。

    • Session(会话层):对有多轮用户交互的 Agent 会话的完整记录。通过 Session 视图复盘整个上下文,精准定位 Agent 出现幻觉或上下文漂移的环节。

    • Trace(追踪层):从用户输入到 Agent 输出的单次交互。系统通过详细拆解输入输出、执行耗时、Token 消耗,以树状和图状形式直观展示 Agent 的执行路径,帮助开发者快速定位性能瓶颈和高成本环节。

    • Generation/Span(执行层):对 Trace 中所有原子操作的透明化展示,包括每一步 Generation 和 Span 的执行时间、消耗 Token 以及中间结果,便于进行针对性的优化。

  • 会话与用户跟踪:支持将多轮对话作为会话进行跟踪,并关联用户信息。

  • Agent 可视化:可将 Agent 的执行流程以树状或图状展示。

  • 灵活的采集方式:支持 Dify、Ragflow 等主流大模型开发框架的零代码集成,以及基于 Python/JS 原生 SDK、OpenTelemetry 等方式的采集,覆盖 14+ 主流 AI 框架。

提示词管理(Prompt Management)

在 Agent 应用的开发和迭代过程中,提示词的管理至关重要。AI 可观测提供独立的提示词管理能力,将提示词从代码中分离,实现版本控制和团队协作。

  • Prompt 与代码解耦:将提示词从应用代码中分离,实现独立管理和部署。

  • 敏捷迭代:在不修改代码的情况下,快速调整和优化提示词。

  • A/B 测试:支持通过版本标签实现提示词的 A/B 测试,快速验证优化效果。

  • Playground 实验场:提供在线实验环境,可直接测试不同提示词的效果。

评估(Evaluation)

AI 可观测提供灵活的评估体系,支持对 LLM 输出质量进行多维度评估,持续改进 Agent 应用效果。

  • 离线评估 + 在线评估:支持基于数据集的离线评测,以及生产环境的在线评测。

  • 多种评分类型:支持数值型、分类型、布尔型、文本型等多种评分方式。

  • LLM as a Judge:利用 LLM 对生成结果进行自动评分,实现规模化质量评估。

  • 人工评分和标注:支持创建标注队列,由人工对生成结果进行评分和标注。

  • SDK 编程评分:通过 SDK 自定义评分逻辑,集成到 CI/CD 流程中。

产品优势

  • 100% 兼容开源 Langfuse 生态:完全兼容 Langfuse SDK 和 API,已有的 Langfuse 集成代码无需任何修改即可接入。

  • 免运维托管:一键开启服务,自动创建所需资源,无需关心底层基础设施的部署和运维。

  • 14+ 主流 AI 框架适配:支持 Dify、Ragflow、LangChain、LlamaIndex、OpenAI SDK 等主流框架的零代码或低代码集成。

  • 灵活的评估体系:提供从自动化评测到人工标注的完整评估链路,满足不同阶段的质量保障需求。

使用场景

场景

说明

核心价值

开发调试

通过全链路追踪定位 Agent 执行中的异常和性能瓶颈。

缩短排查时间,提升迭代效率。

提示词管理

集中管理和迭代提示词,支持版本控制和 A/B 测试。

Prompt 与代码解耦,团队高效协作。

质量评估

通过自动评测和人工标注持续评估 Agent 输出质量。

量化输出质量,驱动持续优化。

生产监控

实时监控生产环境的 Token 消耗、延迟和错误率。

成本可控,异常可感知。

团队协作

通过组织和项目管理,实现多团队共享可观测数据。

统一可观测平台,降低协作成本。

使用限制

限制项

说明

实例版本要求

SelectDB 5.0 及以上版本

服务状态

当前为邀测阶段,需申请白名单后开通。

公网访问

使用 LLM as a Judge 等需要访问公网的功能时,需要为 Litefuse 实例所在 VPC 配置公网 SNAT。配置详情请参见公网 NAT 网关