什么是Agent-lens-云数据库 ClickHouse-阿里云帮助中心

Agent-lens是云数据库 ClickHouse 企业版提供的Agent可观测性功能，基于ClickHouse+Langfuse构建。通过全链路追踪、提示词管理和自动化评测能力，帮助企业实现Agent行为可追溯、成本可量化、效果可评估，解决Agent在生产环境中面临的输出不可控、成本不可见、风险不确定等问题。

核心能力

LLM可观测

可观测性对于理解和调试LLM应用至关重要。与传统软件不同，LLM应用涉及复杂且非确定性的交互，这使得监控和调试极具挑战性。Agent-lens提供全面的追踪功能，帮助您清晰掌握LLM应用中发生的一切，如Token消耗量、LLM调用耗时、工具调用分析等，并且支持按不同维度切分。

全链路追踪（Tracing）：Agent-lens将复杂的执行过程划分为三个核心层级，实现全链路可观测。
- Session（会话层）：对有多轮用户交互的Agent会话的完整记录。用户可通过Session视图复盘整个上下文，精准定位Agent出现幻觉或上下文漂移的环节。
- Trace（追踪层）：从用户输入到Agent输出的单次交互。系统通过详细拆解输入输出、执行耗时、Token消耗，并以树状和图状形式直观展示Agent的执行路径，帮助开发者快速定位性能瓶颈和高成本环节。
- Generation/Span（执行层）：对Trace中所有原子操作的透明化展示，包括每一步Generation和Span的执行时间、消耗Token以及中间结果，便于进行针对性的优化。
会话与用户跟踪：支持将多轮对话作为会话进行跟踪，并关联用户信息。
Agent可视化：可将Agent的执行流程以树状或图状展示。
灵活的采集方式：支持DIfy等主流大模型开发框架的0代码集成，以及基于Python/JS原生SDK、Opentelemetry等的采集，完整支持的数据采集方式，请参见官网文档integrations。

提示词管理（Prompt Management）

提示词管理是一种系统化方法，用于存储、版本控制和检索LLM应用中的提示词。您无需将提示词硬编码在应用程序代码中，而是可以在Langfuse中进行集中管理。通过将提示词托管在Langfuse中，非技术团队成员可以直接在UI界面中更新提示词，应用程序会自动获取最新版本，无需工程团队参与或触发部署流程。

Agent-lens提示词管理具备以下能力：

Prompt与代码解耦：将Prompt、模型参数与代码彻底分离，业务人员可以直接调整Prompt内容，无需代码重部署。
敏捷迭代：代码侧只需关联Prompt的标签，业务人员在后台调整对应标签的Prompt，迭代可实时生效。
A/B测试：支持多版本Prompt并存与灰度测试，通过代码分流不同标签的Prompt，并结合Trace视图量化对比不同Prompt的实际效果。
Playground实验场：在推向生产之前，可以在线预演，对比不同版本Prompt下Agent的执行链路和效果差异，确认无误后再全量发布。

评估（Evaluation）

Agent-lens为LLM应用行为提供了可重复的检验机制，让您能够以数据驱动决策。评估还能帮助您在发布变更前发现回归问题。Agent-lens支持以下评估方式：

离线评估：在部署前使用固定数据集对应用进行测试，针对测试用例运行新的提示词或模型，审查评分结果，持续迭代直至效果满意后再部署变更。
在线评估：通过对实时追踪数据进行评分，捕捉生产环境中的实际问题。发现数据集中未覆盖的边缘案例时，可以将其添加回数据集，形成闭环优化。
评分：评分是Langfuse中用于存储评估结果的通用数据对象。无论通过人工标注、LLM裁判模型、程序化检查还是最终用户反馈来对LLM输出进行质量评判，其结果均会以评分的形式统一存储。评分可以附加到追踪（Traces）、观测（Observations）、会话（Sessions）或数据集运行（Dataset Runs）上。
每个评分包含三个核心要素：名称（Name）、值（Value）和数据类型（Data Type）。其中数据类型支持数值型（NUMERIC）、分类型（CATEGORICAL）、布尔型（BOOLEAN）或文本型（TEXT）。
LLM as a Judge：利用大语言模型作为裁判，根据预定义的业务规则和安全合规要求，自动为Agent输出打分，灵活衡量相关性、安全性、语气或事实准确性等维度。
人工评分和标注：支持结构化的人工审核流程，可以创建和管理自定义队列，将特定的追踪或会话分配给不同的审核人员或团队。
通过SDK评分：使用Langfuse API或SDK以编程方式添加评分，支持构建自定义评估流水线、执行确定性检查（如格式验证、关键词匹配）以及集成自动化工作流。

独特优势

100%兼容开源生态：在内核层面与开源Langfuse保持100%兼容，无论是初次使用还是从开源版本迁移，都能平滑接入，无需重构现有代码。
极简运维：传统自建方案需维护元数据库、缓存、后端等多个独立组件。Agent-lens实现一键部署，将复杂架构封装为简洁的控制台操作。
更全面的框架适配：除了支持Dify、Ragflow等14种主流框架的零代码数据采集和基于OpenTelemetry协议的数据接入外，还扩展支持了OpenClaw的数据采集Plugin。
传统日志与Agent观测打通：支持在原有ClickHouse数据库基础上快速开通，利用同一数据底座，打通传统IT监控日志与Agent运行数据，结合业务订单号、用户ID等信息，快速定位由Agent行为引发的业务异常。
LLM智能分析：在LLM-as-a-Judge之上，针对低评分提供智能洞察能力，当发生性能瓶颈或调用失败时，结合上下文给出根因分析建议。

使用场景

Agent-lens适用于LLM应用开发从原型设计到生产监控的各个阶段。

场景	能力	说明
开发与调试	问题定位	当LLM输出不符合预期时，通过全链路追踪快速定位是提示词问题、检索内容错误还是模型调用参数配置不当。
	复杂流程可视化	对于包含多步推理、工具调用或Agent协作的复杂应用，以图谱形式清晰展示执行路径，帮助开发者理解内部逻辑。
	成本与性能分析	在开发阶段即可监控每次调用的Token消耗和延迟，优化提示词以减少不必要的开销。
提示词工程与管理	集中化管理	将分散在代码中的提示词统一托管在Langfuse平台，支持版本控制和回滚。
	A/B测试与迭代	非技术人员（如产品经理）可直接在UI中修改提示词并实时生效，无需重新部署代码，加速迭代周期。
	效果对比	结合评估功能，对比不同版本提示词在同一数据集上的表现，选择最优方案。
质量保证与评估	离线回归测试	在发布新功能或修改提示词前，运行自动化评估实验，确保变更不会导致现有功能退化。
	多维度评分	利用LLM-as-a-Judge、规则检查或人工标注，对输出的准确性、安全性、相关性等进行量化评分。
	黄金数据集管理	维护标准测试用例集，作为衡量应用质量的基准。
生产环境监控	实时可观测性	监控生产环境中的关键指标（如错误率、平均响应时间、Token成本），及时发现异常。
	用户行为分析	追踪特定用户或会话的多轮交互历史，分析用户满意度和常见问题模式。
	边缘案例发现	通过在线评估识别低分输出，自动将其加入待审核队列或补充到测试数据集中，形成闭环优化。
团队协作与合规	跨职能协作	工程师、产品经理和数据科学家共享同一套追踪数据和评估结果，打破信息孤岛。
团队协作与合规	审计与追溯	保留完整的输入输出日志和操作记录，满足企业内部合规要求或外部监管需求。