什么是Agent-lens

更新时间:
复制为 MD 格式

Agent-lens云数据库 ClickHouse 企业版提供的Agent可观测性功能,基于ClickHouse+Langfuse构建。通过全链路追踪、提示词管理和自动化评测能力,帮助企业实现Agent行为可追溯、成本可量化、效果可评估,解决Agent在生产环境中面临的输出不可控、成本不可见、风险不确定等问题。

核心能力

LLM可观测

可观测性对于理解和调试LLM应用至关重要。与传统软件不同,LLM应用涉及复杂且非确定性的交互,这使得监控和调试极具挑战性。Agent-lens提供全面的追踪功能,帮助您清晰掌握LLM应用中发生的一切,如Token消耗量、LLM调用耗时、工具调用分析等,并且支持按不同维度切分。

  • 全链路追踪(Tracing):Agent-lens将复杂的执行过程划分为三个核心层级,实现全链路可观测。

    • Session(会话层):对有多轮用户交互的Agent会话的完整记录。用户可通过Session视图复盘整个上下文,精准定位Agent出现幻觉或上下文漂移的环节。

    • Trace(追踪层):从用户输入到Agent输出的单次交互。系统通过详细拆解输入输出、执行耗时、Token消耗,并以树状和图状形式直观展示Agent的执行路径,帮助开发者快速定位性能瓶颈和高成本环节。

    • Generation/Span(执行层):对Trace中所有原子操作的透明化展示,包括每一步GenerationSpan的执行时间、消耗Token以及中间结果,便于进行针对性的优化。

  • 会话与用户跟踪:支持将多轮对话作为会话进行跟踪,并关联用户信息。

  • Agent可视化:可将Agent的执行流程以树状或图状展示。

  • 灵活的采集方式:支持DIfy等主流大模型开发框架的0代码集成,以及基于Python/JS原生SDK、Opentelemetry等的采集,完整支持的数据采集方式,请参见官网文档integrations

提示词管理(Prompt Management)

提示词管理是一种系统化方法,用于存储、版本控制和检索LLM应用中的提示词。您无需将提示词硬编码在应用程序代码中,而是可以在Langfuse中进行集中管理。通过将提示词托管在Langfuse中,非技术团队成员可以直接在UI界面中更新提示词,应用程序会自动获取最新版本,无需工程团队参与或触发部署流程。

Agent-lens提示词管理具备以下能力:

  • Prompt与代码解耦:将Prompt、模型参数与代码彻底分离,业务人员可以直接调整Prompt内容,无需代码重部署。

  • 敏捷迭代:代码侧只需关联Prompt的标签,业务人员在后台调整对应标签的Prompt,迭代可实时生效。

  • A/B测试:支持多版本Prompt并存与灰度测试,通过代码分流不同标签的Prompt,并结合Trace视图量化对比不同Prompt的实际效果。

  • Playground实验场:在推向生产之前,可以在线预演,对比不同版本PromptAgent的执行链路和效果差异,确认无误后再全量发布。

评估(Evaluation)

Agent-lensLLM应用行为提供了可重复的检验机制,让您能够以数据驱动决策。评估还能帮助您在发布变更前发现回归问题。Agent-lens支持以下评估方式:

  • 离线评估:在部署前使用固定数据集对应用进行测试,针对测试用例运行新的提示词或模型,审查评分结果,持续迭代直至效果满意后再部署变更。

  • 在线评估:通过对实时追踪数据进行评分,捕捉生产环境中的实际问题。发现数据集中未覆盖的边缘案例时,可以将其添加回数据集,形成闭环优化。

  • 评分:评分是Langfuse中用于存储评估结果的通用数据对象。无论通过人工标注、LLM裁判模型、程序化检查还是最终用户反馈来对LLM输出进行质量评判,其结果均会以评分的形式统一存储。评分可以附加到追踪(Traces)、观测(Observations)、会话(Sessions)或数据集运行(Dataset Runs)上。

    每个评分包含三个核心要素:名称(Name)、值(Value)和数据类型(Data Type)。其中数据类型支持数值型(NUMERIC)、分类型(CATEGORICAL)、布尔型(BOOLEAN)或文本型(TEXT)。

  • LLM as a Judge:利用大语言模型作为裁判,根据预定义的业务规则和安全合规要求,自动为Agent输出打分,灵活衡量相关性、安全性、语气或事实准确性等维度。

  • 人工评分和标注:支持结构化的人工审核流程,可以创建和管理自定义队列,将特定的追踪或会话分配给不同的审核人员或团队。

  • 通过SDK评分:使用Langfuse APISDK以编程方式添加评分,支持构建自定义评估流水线、执行确定性检查(如格式验证、关键词匹配)以及集成自动化工作流。

独特优势

  • 100%兼容开源生态:在内核层面与开源Langfuse保持100%兼容,无论是初次使用还是从开源版本迁移,都能平滑接入,无需重构现有代码。

  • 极简运维:传统自建方案需维护元数据库、缓存、后端等多个独立组件。Agent-lens实现一键部署,将复杂架构封装为简洁的控制台操作。

  • 更全面的框架适配:除了支持Dify、Ragflow14种主流框架的零代码数据采集和基于OpenTelemetry协议的数据接入外,还扩展支持了OpenClaw的数据采集Plugin。

  • 传统日志与Agent观测打通:支持在原有ClickHouse数据库基础上快速开通,利用同一数据底座,打通传统IT监控日志与Agent运行数据,结合业务订单号、用户ID等信息,快速定位由Agent行为引发的业务异常。

  • LLM智能分析:在LLM-as-a-Judge之上,针对低评分提供智能洞察能力,当发生性能瓶颈或调用失败时,结合上下文给出根因分析建议。

使用场景

Agent-lens适用于LLM应用开发从原型设计到生产监控的各个阶段。

场景

能力

说明

开发与调试

问题定位

LLM输出不符合预期时,通过全链路追踪快速定位是提示词问题、检索内容错误还是模型调用参数配置不当。

复杂流程可视化

对于包含多步推理、工具调用或Agent协作的复杂应用,以图谱形式清晰展示执行路径,帮助开发者理解内部逻辑。

成本与性能分析

在开发阶段即可监控每次调用的Token消耗和延迟,优化提示词以减少不必要的开销。

提示词工程与管理

集中化管理

将分散在代码中的提示词统一托管在Langfuse平台,支持版本控制和回滚。

A/B测试与迭代

非技术人员(如产品经理)可直接在UI中修改提示词并实时生效,无需重新部署代码,加速迭代周期。

效果对比

结合评估功能,对比不同版本提示词在同一数据集上的表现,选择最优方案。

质量保证与评估

离线回归测试

在发布新功能或修改提示词前,运行自动化评估实验,确保变更不会导致现有功能退化。

多维度评分

利用LLM-as-a-Judge、规则检查或人工标注,对输出的准确性、安全性、相关性等进行量化评分。

黄金数据集管理

维护标准测试用例集,作为衡量应用质量的基准。

生产环境监控

实时可观测性

监控生产环境中的关键指标(如错误率、平均响应时间、Token成本),及时发现异常。

用户行为分析

追踪特定用户或会话的多轮交互历史,分析用户满意度和常见问题模式。

边缘案例发现

通过在线评估识别低分输出,自动将其加入待审核队列或补充到测试数据集中,形成闭环优化。

团队协作与合规

跨职能协作

工程师、产品经理和数据科学家共享同一套追踪数据和评估结果,打破信息孤岛。

审计与追溯

保留完整的输入输出日志和操作记录,满足企业内部合规要求或外部监管需求。