Agent-lens是云数据库 ClickHouse 企业版提供的Agent可观测性功能,基于ClickHouse+Langfuse构建。通过全链路追踪、提示词管理和自动化评测能力,帮助企业实现Agent行为可追溯、成本可量化、效果可评估,解决Agent在生产环境中面临的输出不可控、成本不可见、风险不确定等问题。
核心能力
LLM可观测
可观测性对于理解和调试LLM应用至关重要。与传统软件不同,LLM应用涉及复杂且非确定性的交互,这使得监控和调试极具挑战性。Agent-lens提供全面的追踪功能,帮助您清晰掌握LLM应用中发生的一切,如Token消耗量、LLM调用耗时、工具调用分析等,并且支持按不同维度切分。
全链路追踪(Tracing):Agent-lens将复杂的执行过程划分为三个核心层级,实现全链路可观测。
Session(会话层):对有多轮用户交互的Agent会话的完整记录。用户可通过Session视图复盘整个上下文,精准定位Agent出现幻觉或上下文漂移的环节。
Trace(追踪层):从用户输入到Agent输出的单次交互。系统通过详细拆解输入输出、执行耗时、Token消耗,并以树状和图状形式直观展示Agent的执行路径,帮助开发者快速定位性能瓶颈和高成本环节。
Generation/Span(执行层):对Trace中所有原子操作的透明化展示,包括每一步Generation和Span的执行时间、消耗Token以及中间结果,便于进行针对性的优化。
会话与用户跟踪:支持将多轮对话作为会话进行跟踪,并关联用户信息。
Agent可视化:可将Agent的执行流程以树状或图状展示。
灵活的采集方式:支持DIfy等主流大模型开发框架的0代码集成,以及基于Python/JS原生SDK、Opentelemetry等的采集,完整支持的数据采集方式,请参见官网文档integrations。
提示词管理(Prompt Management)
提示词管理是一种系统化方法,用于存储、版本控制和检索LLM应用中的提示词。您无需将提示词硬编码在应用程序代码中,而是可以在Langfuse中进行集中管理。通过将提示词托管在Langfuse中,非技术团队成员可以直接在UI界面中更新提示词,应用程序会自动获取最新版本,无需工程团队参与或触发部署流程。
Agent-lens提示词管理具备以下能力:
Prompt与代码解耦:将Prompt、模型参数与代码彻底分离,业务人员可以直接调整Prompt内容,无需代码重部署。
敏捷迭代:代码侧只需关联Prompt的标签,业务人员在后台调整对应标签的Prompt,迭代可实时生效。
A/B测试:支持多版本Prompt并存与灰度测试,通过代码分流不同标签的Prompt,并结合Trace视图量化对比不同Prompt的实际效果。
Playground实验场:在推向生产之前,可以在线预演,对比不同版本Prompt下Agent的执行链路和效果差异,确认无误后再全量发布。
评估(Evaluation)
Agent-lens为LLM应用行为提供了可重复的检验机制,让您能够以数据驱动决策。评估还能帮助您在发布变更前发现回归问题。Agent-lens支持以下评估方式:
离线评估:在部署前使用固定数据集对应用进行测试,针对测试用例运行新的提示词或模型,审查评分结果,持续迭代直至效果满意后再部署变更。
在线评估:通过对实时追踪数据进行评分,捕捉生产环境中的实际问题。发现数据集中未覆盖的边缘案例时,可以将其添加回数据集,形成闭环优化。
评分:评分是Langfuse中用于存储评估结果的通用数据对象。无论通过人工标注、LLM裁判模型、程序化检查还是最终用户反馈来对LLM输出进行质量评判,其结果均会以评分的形式统一存储。评分可以附加到追踪(Traces)、观测(Observations)、会话(Sessions)或数据集运行(Dataset Runs)上。
每个评分包含三个核心要素:名称(Name)、值(Value)和数据类型(Data Type)。其中数据类型支持数值型(NUMERIC)、分类型(CATEGORICAL)、布尔型(BOOLEAN)或文本型(TEXT)。
LLM as a Judge:利用大语言模型作为裁判,根据预定义的业务规则和安全合规要求,自动为Agent输出打分,灵活衡量相关性、安全性、语气或事实准确性等维度。
人工评分和标注:支持结构化的人工审核流程,可以创建和管理自定义队列,将特定的追踪或会话分配给不同的审核人员或团队。
通过SDK评分:使用Langfuse API或SDK以编程方式添加评分,支持构建自定义评估流水线、执行确定性检查(如格式验证、关键词匹配)以及集成自动化工作流。
独特优势
100%兼容开源生态:在内核层面与开源Langfuse保持100%兼容,无论是初次使用还是从开源版本迁移,都能平滑接入,无需重构现有代码。
极简运维:传统自建方案需维护元数据库、缓存、后端等多个独立组件。Agent-lens实现一键部署,将复杂架构封装为简洁的控制台操作。
更全面的框架适配:除了支持Dify、Ragflow等14种主流框架的零代码数据采集和基于OpenTelemetry协议的数据接入外,还扩展支持了OpenClaw的数据采集Plugin。
传统日志与Agent观测打通:支持在原有ClickHouse数据库基础上快速开通,利用同一数据底座,打通传统IT监控日志与Agent运行数据,结合业务订单号、用户ID等信息,快速定位由Agent行为引发的业务异常。
LLM智能分析:在LLM-as-a-Judge之上,针对低评分提供智能洞察能力,当发生性能瓶颈或调用失败时,结合上下文给出根因分析建议。
使用场景
Agent-lens适用于LLM应用开发从原型设计到生产监控的各个阶段。
场景 | 能力 | 说明 |
开发与调试 | 问题定位 | 当LLM输出不符合预期时,通过全链路追踪快速定位是提示词问题、检索内容错误还是模型调用参数配置不当。 |
复杂流程可视化 | 对于包含多步推理、工具调用或Agent协作的复杂应用,以图谱形式清晰展示执行路径,帮助开发者理解内部逻辑。 | |
成本与性能分析 | 在开发阶段即可监控每次调用的Token消耗和延迟,优化提示词以减少不必要的开销。 | |
提示词工程与管理 | 集中化管理 | 将分散在代码中的提示词统一托管在Langfuse平台,支持版本控制和回滚。 |
A/B测试与迭代 | 非技术人员(如产品经理)可直接在UI中修改提示词并实时生效,无需重新部署代码,加速迭代周期。 | |
效果对比 | 结合评估功能,对比不同版本提示词在同一数据集上的表现,选择最优方案。 | |
质量保证与评估 | 离线回归测试 | 在发布新功能或修改提示词前,运行自动化评估实验,确保变更不会导致现有功能退化。 |
多维度评分 | 利用LLM-as-a-Judge、规则检查或人工标注,对输出的准确性、安全性、相关性等进行量化评分。 | |
黄金数据集管理 | 维护标准测试用例集,作为衡量应用质量的基准。 | |
生产环境监控 | 实时可观测性 | 监控生产环境中的关键指标(如错误率、平均响应时间、Token成本),及时发现异常。 |
用户行为分析 | 追踪特定用户或会话的多轮交互历史,分析用户满意度和常见问题模式。 | |
边缘案例发现 | 通过在线评估识别低分输出,自动将其加入待审核队列或补充到测试数据集中,形成闭环优化。 | |
团队协作与合规 | 跨职能协作 | 工程师、产品经理和数据科学家共享同一套追踪数据和评估结果,打破信息孤岛。 |
审计与追溯 | 保留完整的输入输出日志和操作记录,满足企业内部合规要求或外部监管需求。 |