为 LLM 和 Agent 应用提供端到端可观测能力。通过全链路追踪、提示词管理和自动化评测,定位执行异常、量化 Token 成本、评估输出质量,解决 Agent 在生产环境中输出不可控、成本不可见的问题。
核心能力
LLM 可观测
LLM 应用涉及复杂且非确定性的交互,传统监控手段难以覆盖。AI 可观测提供全面的追踪功能,帮助清晰掌握 LLM 应用中的 Token 消耗量、调用耗时、工具调用等关键指标,并支持按不同维度切分。
全链路追踪(Tracing):AI 可观测将复杂的执行过程划分为三个核心层级,实现全链路可观测。
Session(会话层):对有多轮用户交互的 Agent 会话的完整记录。通过 Session 视图复盘整个上下文,精准定位 Agent 出现幻觉或上下文漂移的环节。
Trace(追踪层):从用户输入到 Agent 输出的单次交互。系统通过详细拆解输入输出、执行耗时、Token 消耗,以树状和图状形式直观展示 Agent 的执行路径,帮助开发者快速定位性能瓶颈和高成本环节。
Generation/Span(执行层):对 Trace 中所有原子操作的透明化展示,包括每一步 Generation 和 Span 的执行时间、消耗 Token 以及中间结果,便于进行针对性的优化。
会话与用户跟踪:支持将多轮对话作为会话进行跟踪,并关联用户信息。
Agent 可视化:可将 Agent 的执行流程以树状或图状展示。
灵活的采集方式:支持 Dify、Ragflow 等主流大模型开发框架的零代码集成,以及基于 Python/JS 原生 SDK、OpenTelemetry 等方式的采集,覆盖 14+ 主流 AI 框架。
提示词管理(Prompt Management)
在 Agent 应用的开发和迭代过程中,提示词的管理至关重要。AI 可观测提供独立的提示词管理能力,将提示词从代码中分离,实现版本控制和团队协作。
Prompt 与代码解耦:将提示词从应用代码中分离,实现独立管理和部署。
敏捷迭代:在不修改代码的情况下,快速调整和优化提示词。
A/B 测试:支持通过版本标签实现提示词的 A/B 测试,快速验证优化效果。
Playground 实验场:提供在线实验环境,可直接测试不同提示词的效果。
评估(Evaluation)
AI 可观测提供灵活的评估体系,支持对 LLM 输出质量进行多维度评估,持续改进 Agent 应用效果。
离线评估 + 在线评估:支持基于数据集的离线评测,以及生产环境的在线评测。
多种评分类型:支持数值型、分类型、布尔型、文本型等多种评分方式。
LLM as a Judge:利用 LLM 对生成结果进行自动评分,实现规模化质量评估。
人工评分和标注:支持创建标注队列,由人工对生成结果进行评分和标注。
SDK 编程评分:通过 SDK 自定义评分逻辑,集成到 CI/CD 流程中。
产品优势
100% 兼容开源 Langfuse 生态:完全兼容 Langfuse SDK 和 API,已有的 Langfuse 集成代码无需任何修改即可接入。
免运维托管:一键开启服务,自动创建所需资源,无需关心底层基础设施的部署和运维。
14+ 主流 AI 框架适配:支持 Dify、Ragflow、LangChain、LlamaIndex、OpenAI SDK 等主流框架的零代码或低代码集成。
灵活的评估体系:提供从自动化评测到人工标注的完整评估链路,满足不同阶段的质量保障需求。
使用场景
场景 | 说明 | 核心价值 |
开发调试 | 通过全链路追踪定位 Agent 执行中的异常和性能瓶颈。 | 缩短排查时间,提升迭代效率。 |
提示词管理 | 集中管理和迭代提示词,支持版本控制和 A/B 测试。 | Prompt 与代码解耦,团队高效协作。 |
质量评估 | 通过自动评测和人工标注持续评估 Agent 输出质量。 | 量化输出质量,驱动持续优化。 |
生产监控 | 实时监控生产环境的 Token 消耗、延迟和错误率。 | 成本可控,异常可感知。 |
团队协作 | 通过组织和项目管理,实现多团队共享可观测数据。 | 统一可观测平台,降低协作成本。 |
使用限制
限制项 | 说明 |
实例版本要求 | SelectDB 5.0 及以上版本 |
服务状态 | 当前为邀测阶段,需申请白名单后开通。 |
公网访问 | 使用 LLM as a Judge 等需要访问公网的功能时,需要为 Litefuse 实例所在 VPC 配置公网 SNAT。配置详情请参见公网 NAT 网关。 |