什么是 AgentLoop

更新时间:
复制为 MD 格式

什么是AgentLoop

AgentLoop是阿里云推出的面向大语言模型(LLM)应用的全生命周期数据观测与数据飞轮平台,帮助企业构建可持续自进化的 AI Agent 闭环,围绕AI应用运行时产生的Trace、Log、Metric、Conversation等关键数据,提供从采集与观测、可视化定位问题,到评估与实验、Prompt/版本管理,再到数据沉淀为评估集与后训练数据集、长期记忆并反哺线上效果的端到端闭环能力。

AgentLoop强调服务的对象是Agent,而核心价值在于为它建立一个可持续自进化的Loop(闭环)。它不是传统的监控工具,而是将运行时数据变成驱动可靠性、稳定性与效果持续优化的数据飞轮,让Agent在生产环境中形成可迭代、可验证、可规模化的持续改进闭环。

产品定位

AgentLoop定位为"AI Agent效果优化平台",提供端到端的可观测性、评估与监控能力:

  • 追踪每次调用的提示词、模型输出、延迟、Token消耗及成本。

  • 支持自定义规则评估、人工反馈、A/B实验对比与提示版本管理。

  • 深度集成主流框架,通过可视化仪表盘助力开发者实时洞察行为、高效调试问题、优化提示工程、控制推理成本。

  • 提升LLM应用在生产环境中的可靠性、迭代效率与业务价值。

功能特性

1. 全链路可观测性

  • 模型应用监控:支持接入AI应用,查看模型应用列表、应用详情和拓扑关系。

  • 调用链分析:提供Span列表、Trace列表、散点图、全链路聚合、全链路拓扑、错/慢Trace分析。

  • 多维度指标:覆盖请求数、错误数、耗时、Token使用量、会话数、用户数等核心指标。

  • 场景化分析:支持嵌入分析、检索增强、工具调用、方法调用等AI特有操作的分析。

2. 数据资产管理(Dataset)

DatasetAgentLoopAI场景设计的新型数据存储,在传统日志存储的基础上提供完整CRUD、灵活Schema、向量检索与多维分析能力,让AI运行时数据从"只读日志"升级为"可管理资产"。

  • 自定义Schema:支持text、long、double、json等多种字段类型,JSON支持嵌套子字段索引。

  • 完整CRUD:通过标准SQL执行INSERT/UPDATE/DELETE,数据可修订、可演进。

  • 多维检索:全文检索 + 语义搜索 + SQL分析,四种查询模式自由组合。

  • 版本追溯:每条数据自动生成唯一ID,支持追溯、导出与回归测试。

3. 评估体系(Evaluation)

评估旨在为开发者提供一套可度量、可复现、可自动化的质量治理体系,解决大模型非确定性带来的工程挑战:

  • 量化不确定性:将模糊的"语义感受"转化为精确的"统计指标"。

  • 驱动敏捷迭代:通过自动化评测,将原本以周为单位的实验周期缩短至分钟级。

  • 确保上线可靠性:建立标准化的回归测试集,防止"修好一个Bug,引入三个退化"的隐患。

预置评估器:

类别

评估器

说明

通用场景

毒性(toxicity)

检测模型输出是否包含冒犯性、有害或不当语言

安全性(security)

评估模型输出是否符合安全合规要求

连贯性(coherence)

评估模型输出的逻辑是否通顺、前后连贯

完整性(completeness)

评估模型输出是否覆盖了用户问题的必要信息

RAG评估

上下文相关性(rag_context_relevance)

评估检索返回的上下文内容与用户问题的匹配程度

答案相关性(rag_answer_relevance)

评估模型生成的答案是否正面回答了用户问题

多样性(rag_diversity)

评估检索结果的信息丰富度和多样性

重复性(rag_context_duplicate)

检测检索返回的上下文是否存在冗余重复内容

工具使用

工具选择正确性(tool_call_correctness)

评估模型是否选择了正确的工具来处理用户请求

工具参数正确性(tool_param_correctness)

评估模型传递给工具的参数是否准确完整

Agent评估

Agent轨迹质量(agent_trajectory_quality)

评估Agent执行轨迹的整体质量和合理性

Agent工具选择合理性(agent_tool_selections_rationality)

评估Agent在执行过程中工具选择的合理性

Agent工具调用成功率(agent_tool_call_success_rate)

评估Agent工具调用的成功率

自定义评估器:支持通过编写自定义评估Prompt,驱动大语言模型(LLM)作为"裁判",按照自定义的维度、标准和权重,对AI应用的输出进行量化打分与深度诊断。

4. 实验与Playground

实验记录与Playground为企业提供从Prompt指令工程调试到大规模自动化评测的全链路闭环:

  • 实验计划:创建并管理实验计划,用于沉淀业务基准,保存模型服务、提示词模板、数据集及评估器组合。

  • Playground:支持在可视化界面中配置多组实验,实时调整推理参数(Temperature, Top-p等)并调用数据源进行单例或批量验证。

  • 实验记录:实验执行的资产库,记录每次任务的执行快照,包括模型服务详情、Token消耗、首字延迟、评估器量化得分。

  • 对比分析:多维度的回归分析工具,支持选定2~5条实验记录进行横向比对,涵盖评估指标趋势、配置参数差异及样本级语义对比。

5. 长期记忆(Memory)

AgentLoop记忆库是为AI Agent打造的核心记忆层,提供持久化的记忆能力:

  • 保持跨越会话的连贯性:长期保存关键信息(如对话历史、任务状态、决策依据),并通过高效的检索与上下文注入机制,在新的交互中动态地为模型提供相关背景。

  • 高度自适应的个性化:系统性地记录用户的偏好,如格式要求、沟通风格等,也能记住历史行为模式与长期目标,使模型能够生成高度定制化的输出。

  • 基于历史信息的深度推理:通过赋予AI Agent记忆、学习和进化的能力,显著提升交互的连续性和智能水平。

记忆策略:

  • 事实(Facts):抽取出特定的事实、事件、以及和用户相关的偏好。

  • 情节(Episodic):对特定事件或交互经历的记录与回忆能力,记录何时、何地、发生了什么。

  • 摘要(Summary):对用户交互内容进行凝练概括,提取关键信息以形成简洁、连贯的语义表示。

  • 自定义策略:由用户自定义的提取策略。

功能优势

1. 端到端闭环能力

AgentLoop不是孤立的监控工具,而是覆盖AI应用全生命周期的数据飞轮平台:

  • 数据采集:自动采集Trace、Log、Metric、Conversation等运行时数据。

  • 可视化观测:提供丰富的仪表盘和调用链分析,快速定位问题。

  • 评估实验:支持Prompt调优、模型对比、自动化评估。

  • 数据沉淀:将优质数据沉淀为评估集和后训练数据集。

  • 持续优化:通过长期记忆和数据飞轮反哺线上效果。

2. 企业级安全合规

  • 多租户数据隔离:用户数据严格隔离,互不可见,确保隔离性。

  • 完整审计日志:所有操作的增删改查均有记录,满足企业合规审计要求。

  • 数据安全:基于阿里云成熟的安全体系,提供数据加密、访问控制等能力。

3. 弹性扩展与高可用

  • 自动弹性扩缩容:根据业务负载自动调整资源,无需人工干预。

  • 高并发支持:即使在流量高峰期,也能保证数据写入和检索的及时性。

  • 海量数据存储:基于SLS底层存储,支持PB级数据存储和秒级查询。

4. 深度集成与开放生态

  • 框架集成:深度集成LangChain、LlamaIndex等主流AI框架。

  • SDK支持:提供多语言SDK,支持Python、Java等主流开发语言。

  • API开放:提供完整的API接口,支持自定义集成和扩展。

  • MCP Server:支持MCP Server接入,无缝集成到现有Agent框架。

5. 成本优化与FinOps

  • Token消耗分析:精准核算每次实验和线上调用产生的Token消耗与真实成本。

  • 成本优化建议:通过量化数据,辅助决策者选择性价比最优的模型组合方案。

  • 资源利用率监控:监控存储、计算资源使用情况,避免资源浪费。

核心概念

数据集(Dataset)

DatasetAgentLoopAI场景设计的新型数据存储,是AI应用数据全生命周期管理的核心载体。

字段类型

类型

说明

可选能力

示例

text

文本类型

chn: 开启中文分词;embedding: 开启向量索引

question, answer

long

长整型

---

input_tokens, latency_ms

double

浮点型

---

score, confidence

json

JSON嵌套类型

json_keys: 定义子字段索引

metadata, scores

内置字段

字段

类型

说明

id

text

系统自动生成的唯一主键,UPDATE/DELETE必须通过此字段

评估(Evaluation)

评估是AgentLoop质量治理体系的核心,通过自动化评测将模糊的"语义感受"转化为精确的"统计指标"。

评估任务组成

  • 数据来源:支持链路(Trace/Span)、日志(Logstore)、数据集三种数据来源。

  • 评估器(Evaluator):基于LLM-as-a-Judge的自动化打分机制。

  • 采样策略:支持设置采样率和最大样本数,平衡评估覆盖度与成本。

  • 运行策略:支持基于新数据持续评估和基于历史数据评估两种模式。

评估器类型

  1. 预置评估器:系统内置的通用评估器,覆盖毒性、安全性、连贯性、完整性等维度。

  2. RAG评估器:专门针对检索增强生成场景的评估器。

  3. 工具使用评估器:评估Agent工具选择和参数传递的正确性。

  4. Agent评估器:评估Agent执行轨迹、工具选择合理性、调用成功率。

  5. 自定义评估器:用户可根据业务场景编写自定义评估Prompt。

实验(Experiment)

实验是AgentLoop提供的Prompt工程和模型效果优化工具,支持多组配置的批量实验运行和深度对比分析。

实验计划

实验计划用于沉淀业务基准,保存模型服务、提示词模板、数据集及评估器组合,确保实验的可追溯性与环境一致性。

Playground

Playground是实验执行引擎,支持:

  • 从实验计划一键加载配置。

  • 执行批量推理任务。

  • 即时反馈LLM Judge的评估结果。

  • 实时调整推理参数(Temperature, Top-p等)。

实验记录

实验记录是任务执行日志与结果快照,包含:

  • 模型服务详情。

  • Token消耗(成本)。

  • 首字延迟(TTFT)。

  • 评估器量化得分。

  • 任务执行状态。

对比分析

对比分析是决策支持工具,支持:

  • 选定2~5条实验记录进行横向比对。

  • 设置"基准组(Baseline)",计算实验组在准确率、耗时、成本等维度的Delta(差异值)。

  • 文本级的Diff高亮显示,快速定位输出差异。

记忆(Memory)

AgentLoop记忆库是为AI Agent打造的核心记忆层,提供持久化的记忆能力。

记忆库(MemoryStore)

记忆库是记忆数据的存储容器,存储AI Agent或应用程序的所有短期记忆和长期记忆信息。

记忆策略(Memory Strategy)

记忆策略是一系列的记忆提取规则,决定了如何将信息从短期记忆处理到长期记忆中:

策略

说明

事实(Facts)

抽取出特定的事实、事件、以及和用户相关的偏好

情节(Episodic)

对特定事件或交互经历的记录与回忆能力,记录何时、何地、发生了什么

摘要(Summary)

对用户交互内容进行凝练概括,提取关键信息以形成简洁、连贯的语义表示

自定义策略

由用户自定义的提取策略

事件(Event)

事件是短期记忆的基本单位,对应客户端发送的一条原始数据。

短期记忆(Short-term Memory)

短期记忆存储对话以跟踪即时上下文,记录单次事件上下文的核心单元,主要用于维护会话的实时上下文一致性与连续性。

长期记忆(Long-term Memory)

长期记忆存储的是提取的见解,用于持久化存储用户关键信息、行为模式与业务知识的核心功能模块,支持跨会话、跨时间的上下文感知与个性化服务。

模型应用

模型应用是AgentLoop可观测的核心对象,代表一个AI应用实例。

应用详情维度

  • 实例概览:请求数、错误数、耗时、实例数、CPU使用情况。

  • 关联实例:应用接口、Kubernetes集群、基础设施、Upstream/Downstream。

  • 关联拓扑:应用相关的上下游拓扑网络。

  • 应用概览:模型调用次数、Token使用量、Trace数量、Span数量、会话数、用户数。

  • 性能分析:模型调用次数、错误数、耗时趋势。

  • Token分析:Token使用量、会话平均Token用量、请求平均Token用量。

  • 操作分析:嵌入分析、检索增强、工具调用、方法调用。

  • 调用链分析:Span列表、Trace列表、散点图、全链路聚合、全链路拓扑。

与云监控2.0的关系

AgentLoop 与云监控2.0整体产品深度融合:

  • 统一控制台:在云监控2.0控制台中提供AI应用可观测专属入口。

  • 数据互通:AI应用的可观测数据与基础设施监控数据打通,实现全栈可观测。

  • 告警联动:支持基于AI应用指标配置告警规则,与云监控告警体系打通。

  • 权限统一:复用云监控2.0RAM权限体系,实现统一的身份认证和访问控制。

SLS的关系

SLS(日志服务)作为底层基础设施,提供最原始的数据存储/计算能力:

  • Logstore:存储原始日志数据。

  • Metricstore:存储指标数据。

AgentLoopSLS基础上提供业务抽象和上层能力封装,让用户无需关注底层存储细节。

应用场景

场景一:AI应用性能监控与故障排查

场景描述:企业上线AI客服应用后,需要实时监控应用性能,快速发现和解决问题。

AgentLoop解决方案:

  1. 通过AgentLoop SDK接入AI应用,自动采集Trace、Log、Metric数据。

  2. 在模型应用页面查看实时请求数、错误数、延迟等指标。

  3. 通过调用链分析定位具体慢请求或错误请求。

  4. 通过Token分析监控成本消耗。

价值:将平均故障发现时间从小时级缩短到分钟级,降低业务损失。

场景二:Prompt工程优化与效果评估

场景描述:AI应用开发团队需要持续优化Prompt,提升模型输出质量。

AgentLoop解决方案:

  1. Playground中配置多组Prompt实验。

  2. 使用数据集进行批量验证。

  3. 通过评估器自动打分,量化Prompt效果。

  4. 通过对比分析识别最优Prompt版本。

  5. 将优化后的Prompt沉淀到实验计划。

价值:将Prompt迭代周期从周级缩短到天级,提升模型输出质量30%+。

场景三:模型版本升级回归测试

场景描述:企业计划升级底层模型版本,需要评估新版本效果。

AgentLoop解决方案:

  1. 使用Dataset构建评测基准集。

  2. 创建对比实验,同时运行新旧模型版本。

  3. 通过评估器从多维度对比效果。

  4. 通过对比分析识别性能退化点。

  5. 基于数据决策是否升级。

价值:避免盲目升级导致的业务风险,确保模型升级的稳定性。

场景四:Bad Case管理与数据飞轮

场景描述:AI应用上线后产生大量Bad Case,需要系统化管理和优化。

AgentLoop解决方案:

  1. 通过评估任务自动识别低分样本。

  2. Bad Case导入Dataset进行人工标注。

  3. 标注后更新数据,形成优化建议。

  4. 将优质数据沉淀为训练数据集。

  5. 基于数据飞轮持续优化模型效果。

价值:建立数据驱动的持续优化闭环,让AI应用越用越聪明。

场景五:AI Agent长期记忆构建

场景描述:构建个性化AI助手,需要记住用户偏好和历史交互。

AgentLoop解决方案:

  1. 创建MemoryStore记忆库。

  2. 配置记忆策略(事实、情节、摘要)。

  3. 通过SDK添加对话记录。

  4. 在对话中检索相关记忆注入上下文。

  5. 基于记忆提供个性化回复。

价值:提升用户体验和交互连贯性,让AI助手真正"懂"用户。

最佳实践

实践一:建立完整的评估体系

  1. 定义评估维度:根据业务场景确定核心评估维度(准确性、安全性、合规性等)。

  2. 构建评测集:使用Dataset构建覆盖核心业务场景的评测数据集。

  3. 配置评估任务:创建持续运行的评估任务,监控线上数据质量。

  4. 设置告警阈值:对关键评估指标设置告警,及时发现质量问题。

实践二:建立Prompt版本管理规范

  1. 使用实验计划管理Prompt:每个业务场景创建独立的实验计划。

  2. 版本命名规范:使用语义化版本号(如v1.0.0-基础版)。

  3. 变更记录:在实验描述中记录每次变更的原因和效果。

  4. 定期回归:定期运行历史实验,确保新版本不退化。

实践三:数据飞轮建设

  1. 数据采集:确保全量采集AI应用运行时数据。

  2. 数据清洗:通过评估任务自动识别和标注问题数据。

  3. 数据沉淀:将优质数据沉淀到Dataset,构建企业数据资产。

  4. 数据应用:将数据用于模型微调、Prompt优化、知识库更新。

实践四:成本优化

  1. 监控Token消耗:通过Token分析监控各应用的成本消耗。

  2. 模型选型:通过实验对比不同模型的性价比。

  3. 采样策略:对非核心数据使用采样评估,降低成本。

  4. 资源清理:定期清理无用的Dataset和实验记录。