什么是AgentLoop
AgentLoop是阿里云推出的面向大语言模型(LLM)应用的全生命周期数据观测与数据飞轮平台,帮助企业构建可持续自进化的 AI Agent 闭环,围绕AI应用运行时产生的Trace、Log、Metric、Conversation等关键数据,提供从采集与观测、可视化定位问题,到评估与实验、Prompt/版本管理,再到数据沉淀为评估集与后训练数据集、长期记忆并反哺线上效果的端到端闭环能力。
AgentLoop强调服务的对象是Agent,而核心价值在于为它建立一个可持续自进化的Loop(闭环)。它不是传统的监控工具,而是将运行时数据变成驱动可靠性、稳定性与效果持续优化的数据飞轮,让Agent在生产环境中形成可迭代、可验证、可规模化的持续改进闭环。
产品定位
AgentLoop定位为"AI Agent效果优化平台",提供端到端的可观测性、评估与监控能力:
追踪每次调用的提示词、模型输出、延迟、Token消耗及成本。
支持自定义规则评估、人工反馈、A/B实验对比与提示版本管理。
深度集成主流框架,通过可视化仪表盘助力开发者实时洞察行为、高效调试问题、优化提示工程、控制推理成本。
提升LLM应用在生产环境中的可靠性、迭代效率与业务价值。
功能特性
1. 全链路可观测性
模型应用监控:支持接入AI应用,查看模型应用列表、应用详情和拓扑关系。
调用链分析:提供Span列表、Trace列表、散点图、全链路聚合、全链路拓扑、错/慢Trace分析。
多维度指标:覆盖请求数、错误数、耗时、Token使用量、会话数、用户数等核心指标。
场景化分析:支持嵌入分析、检索增强、工具调用、方法调用等AI特有操作的分析。
2. 数据资产管理(Dataset)
Dataset是AgentLoop为AI场景设计的新型数据存储,在传统日志存储的基础上提供完整CRUD、灵活Schema、向量检索与多维分析能力,让AI运行时数据从"只读日志"升级为"可管理资产"。
自定义Schema:支持text、long、double、json等多种字段类型,JSON支持嵌套子字段索引。
完整CRUD:通过标准SQL执行INSERT/UPDATE/DELETE,数据可修订、可演进。
多维检索:全文检索 + 语义搜索 + SQL分析,四种查询模式自由组合。
版本追溯:每条数据自动生成唯一ID,支持追溯、导出与回归测试。
3. 评估体系(Evaluation)
评估旨在为开发者提供一套可度量、可复现、可自动化的质量治理体系,解决大模型非确定性带来的工程挑战:
量化不确定性:将模糊的"语义感受"转化为精确的"统计指标"。
驱动敏捷迭代:通过自动化评测,将原本以周为单位的实验周期缩短至分钟级。
确保上线可靠性:建立标准化的回归测试集,防止"修好一个Bug,引入三个退化"的隐患。
预置评估器:
类别 | 评估器 | 说明 |
通用场景 | 毒性(toxicity) | 检测模型输出是否包含冒犯性、有害或不当语言 |
安全性(security) | 评估模型输出是否符合安全合规要求 | |
连贯性(coherence) | 评估模型输出的逻辑是否通顺、前后连贯 | |
完整性(completeness) | 评估模型输出是否覆盖了用户问题的必要信息 | |
RAG评估 | 上下文相关性(rag_context_relevance) | 评估检索返回的上下文内容与用户问题的匹配程度 |
答案相关性(rag_answer_relevance) | 评估模型生成的答案是否正面回答了用户问题 | |
多样性(rag_diversity) | 评估检索结果的信息丰富度和多样性 | |
重复性(rag_context_duplicate) | 检测检索返回的上下文是否存在冗余重复内容 | |
工具使用 | 工具选择正确性(tool_call_correctness) | 评估模型是否选择了正确的工具来处理用户请求 |
工具参数正确性(tool_param_correctness) | 评估模型传递给工具的参数是否准确完整 | |
Agent评估 | Agent轨迹质量(agent_trajectory_quality) | 评估Agent执行轨迹的整体质量和合理性 |
Agent工具选择合理性(agent_tool_selections_rationality) | 评估Agent在执行过程中工具选择的合理性 | |
Agent工具调用成功率(agent_tool_call_success_rate) | 评估Agent工具调用的成功率 |
自定义评估器:支持通过编写自定义评估Prompt,驱动大语言模型(LLM)作为"裁判",按照自定义的维度、标准和权重,对AI应用的输出进行量化打分与深度诊断。
4. 实验与Playground
实验记录与Playground为企业提供从Prompt指令工程调试到大规模自动化评测的全链路闭环:
实验计划:创建并管理实验计划,用于沉淀业务基准,保存模型服务、提示词模板、数据集及评估器组合。
Playground:支持在可视化界面中配置多组实验,实时调整推理参数(Temperature, Top-p等)并调用数据源进行单例或批量验证。
实验记录:实验执行的资产库,记录每次任务的执行快照,包括模型服务详情、Token消耗、首字延迟、评估器量化得分。
对比分析:多维度的回归分析工具,支持选定2~5条实验记录进行横向比对,涵盖评估指标趋势、配置参数差异及样本级语义对比。
5. 长期记忆(Memory)
AgentLoop记忆库是为AI Agent打造的核心记忆层,提供持久化的记忆能力:
保持跨越会话的连贯性:长期保存关键信息(如对话历史、任务状态、决策依据),并通过高效的检索与上下文注入机制,在新的交互中动态地为模型提供相关背景。
高度自适应的个性化:系统性地记录用户的偏好,如格式要求、沟通风格等,也能记住历史行为模式与长期目标,使模型能够生成高度定制化的输出。
基于历史信息的深度推理:通过赋予AI Agent记忆、学习和进化的能力,显著提升交互的连续性和智能水平。
记忆策略:
事实(Facts):抽取出特定的事实、事件、以及和用户相关的偏好。
情节(Episodic):对特定事件或交互经历的记录与回忆能力,记录何时、何地、发生了什么。
摘要(Summary):对用户交互内容进行凝练概括,提取关键信息以形成简洁、连贯的语义表示。
自定义策略:由用户自定义的提取策略。
功能优势
1. 端到端闭环能力
AgentLoop不是孤立的监控工具,而是覆盖AI应用全生命周期的数据飞轮平台:
数据采集:自动采集Trace、Log、Metric、Conversation等运行时数据。
可视化观测:提供丰富的仪表盘和调用链分析,快速定位问题。
评估实验:支持Prompt调优、模型对比、自动化评估。
数据沉淀:将优质数据沉淀为评估集和后训练数据集。
持续优化:通过长期记忆和数据飞轮反哺线上效果。
2. 企业级安全合规
多租户数据隔离:用户数据严格隔离,互不可见,确保隔离性。
完整审计日志:所有操作的增删改查均有记录,满足企业合规审计要求。
数据安全:基于阿里云成熟的安全体系,提供数据加密、访问控制等能力。
3. 弹性扩展与高可用
自动弹性扩缩容:根据业务负载自动调整资源,无需人工干预。
高并发支持:即使在流量高峰期,也能保证数据写入和检索的及时性。
海量数据存储:基于SLS底层存储,支持PB级数据存储和秒级查询。
4. 深度集成与开放生态
框架集成:深度集成LangChain、LlamaIndex等主流AI框架。
SDK支持:提供多语言SDK,支持Python、Java等主流开发语言。
API开放:提供完整的API接口,支持自定义集成和扩展。
MCP Server:支持MCP Server接入,无缝集成到现有Agent框架。
5. 成本优化与FinOps
Token消耗分析:精准核算每次实验和线上调用产生的Token消耗与真实成本。
成本优化建议:通过量化数据,辅助决策者选择性价比最优的模型组合方案。
资源利用率监控:监控存储、计算资源使用情况,避免资源浪费。
核心概念
数据集(Dataset)
Dataset是AgentLoop为AI场景设计的新型数据存储,是AI应用数据全生命周期管理的核心载体。
字段类型
类型 | 说明 | 可选能力 | 示例 |
text | 文本类型 | chn: 开启中文分词;embedding: 开启向量索引 | question, answer |
long | 长整型 | --- | input_tokens, latency_ms |
double | 浮点型 | --- | score, confidence |
json | JSON嵌套类型 | json_keys: 定义子字段索引 | metadata, scores |
内置字段
字段 | 类型 | 说明 |
id | text | 系统自动生成的唯一主键,UPDATE/DELETE必须通过此字段 |
评估(Evaluation)
评估是AgentLoop质量治理体系的核心,通过自动化评测将模糊的"语义感受"转化为精确的"统计指标"。
评估任务组成
数据来源:支持链路(Trace/Span)、日志(Logstore)、数据集三种数据来源。
评估器(Evaluator):基于LLM-as-a-Judge的自动化打分机制。
采样策略:支持设置采样率和最大样本数,平衡评估覆盖度与成本。
运行策略:支持基于新数据持续评估和基于历史数据评估两种模式。
评估器类型
预置评估器:系统内置的通用评估器,覆盖毒性、安全性、连贯性、完整性等维度。
RAG评估器:专门针对检索增强生成场景的评估器。
工具使用评估器:评估Agent工具选择和参数传递的正确性。
Agent评估器:评估Agent执行轨迹、工具选择合理性、调用成功率。
自定义评估器:用户可根据业务场景编写自定义评估Prompt。
实验(Experiment)
实验是AgentLoop提供的Prompt工程和模型效果优化工具,支持多组配置的批量实验运行和深度对比分析。
实验计划
实验计划用于沉淀业务基准,保存模型服务、提示词模板、数据集及评估器组合,确保实验的可追溯性与环境一致性。
Playground
Playground是实验执行引擎,支持:
从实验计划一键加载配置。
执行批量推理任务。
即时反馈LLM Judge的评估结果。
实时调整推理参数(Temperature, Top-p等)。
实验记录
实验记录是任务执行日志与结果快照,包含:
模型服务详情。
Token消耗(成本)。
首字延迟(TTFT)。
评估器量化得分。
任务执行状态。
对比分析
对比分析是决策支持工具,支持:
选定2~5条实验记录进行横向比对。
设置"基准组(Baseline)",计算实验组在准确率、耗时、成本等维度的Delta(差异值)。
文本级的Diff高亮显示,快速定位输出差异。
记忆(Memory)
AgentLoop记忆库是为AI Agent打造的核心记忆层,提供持久化的记忆能力。
记忆库(MemoryStore)
记忆库是记忆数据的存储容器,存储AI Agent或应用程序的所有短期记忆和长期记忆信息。
记忆策略(Memory Strategy)
记忆策略是一系列的记忆提取规则,决定了如何将信息从短期记忆处理到长期记忆中:
策略 | 说明 |
事实(Facts) | 抽取出特定的事实、事件、以及和用户相关的偏好 |
情节(Episodic) | 对特定事件或交互经历的记录与回忆能力,记录何时、何地、发生了什么 |
摘要(Summary) | 对用户交互内容进行凝练概括,提取关键信息以形成简洁、连贯的语义表示 |
自定义策略 | 由用户自定义的提取策略 |
事件(Event)
事件是短期记忆的基本单位,对应客户端发送的一条原始数据。
短期记忆(Short-term Memory)
短期记忆存储对话以跟踪即时上下文,记录单次事件上下文的核心单元,主要用于维护会话的实时上下文一致性与连续性。
长期记忆(Long-term Memory)
长期记忆存储的是提取的见解,用于持久化存储用户关键信息、行为模式与业务知识的核心功能模块,支持跨会话、跨时间的上下文感知与个性化服务。
模型应用
模型应用是AgentLoop可观测的核心对象,代表一个AI应用实例。
应用详情维度
实例概览:请求数、错误数、耗时、实例数、CPU使用情况。
关联实例:应用接口、Kubernetes集群、基础设施、Upstream/Downstream。
关联拓扑:应用相关的上下游拓扑网络。
应用概览:模型调用次数、Token使用量、Trace数量、Span数量、会话数、用户数。
性能分析:模型调用次数、错误数、耗时趋势。
Token分析:Token使用量、会话平均Token用量、请求平均Token用量。
操作分析:嵌入分析、检索增强、工具调用、方法调用。
调用链分析:Span列表、Trace列表、散点图、全链路聚合、全链路拓扑。
与云监控2.0的关系
AgentLoop 与云监控2.0整体产品深度融合:
统一控制台:在云监控2.0控制台中提供AI应用可观测专属入口。
数据互通:AI应用的可观测数据与基础设施监控数据打通,实现全栈可观测。
告警联动:支持基于AI应用指标配置告警规则,与云监控告警体系打通。
权限统一:复用云监控2.0的RAM权限体系,实现统一的身份认证和访问控制。
与SLS的关系
SLS(日志服务)作为底层基础设施,提供最原始的数据存储/计算能力:
Logstore:存储原始日志数据。
Metricstore:存储指标数据。
AgentLoop在SLS基础上提供业务抽象和上层能力封装,让用户无需关注底层存储细节。
应用场景
场景一:AI应用性能监控与故障排查
场景描述:企业上线AI客服应用后,需要实时监控应用性能,快速发现和解决问题。
AgentLoop解决方案:
通过AgentLoop SDK接入AI应用,自动采集Trace、Log、Metric数据。
在模型应用页面查看实时请求数、错误数、延迟等指标。
通过调用链分析定位具体慢请求或错误请求。
通过Token分析监控成本消耗。
价值:将平均故障发现时间从小时级缩短到分钟级,降低业务损失。
场景二:Prompt工程优化与效果评估
场景描述:AI应用开发团队需要持续优化Prompt,提升模型输出质量。
AgentLoop解决方案:
在Playground中配置多组Prompt实验。
使用数据集进行批量验证。
通过评估器自动打分,量化Prompt效果。
通过对比分析识别最优Prompt版本。
将优化后的Prompt沉淀到实验计划。
价值:将Prompt迭代周期从周级缩短到天级,提升模型输出质量30%+。
场景三:模型版本升级回归测试
场景描述:企业计划升级底层模型版本,需要评估新版本效果。
AgentLoop解决方案:
使用Dataset构建评测基准集。
创建对比实验,同时运行新旧模型版本。
通过评估器从多维度对比效果。
通过对比分析识别性能退化点。
基于数据决策是否升级。
价值:避免盲目升级导致的业务风险,确保模型升级的稳定性。
场景四:Bad Case管理与数据飞轮
场景描述:AI应用上线后产生大量Bad Case,需要系统化管理和优化。
AgentLoop解决方案:
通过评估任务自动识别低分样本。
将Bad Case导入Dataset进行人工标注。
标注后更新数据,形成优化建议。
将优质数据沉淀为训练数据集。
基于数据飞轮持续优化模型效果。
价值:建立数据驱动的持续优化闭环,让AI应用越用越聪明。
场景五:AI Agent长期记忆构建
场景描述:构建个性化AI助手,需要记住用户偏好和历史交互。
AgentLoop解决方案:
创建MemoryStore记忆库。
配置记忆策略(事实、情节、摘要)。
通过SDK添加对话记录。
在对话中检索相关记忆注入上下文。
基于记忆提供个性化回复。
价值:提升用户体验和交互连贯性,让AI助手真正"懂"用户。
最佳实践
实践一:建立完整的评估体系
定义评估维度:根据业务场景确定核心评估维度(准确性、安全性、合规性等)。
构建评测集:使用Dataset构建覆盖核心业务场景的评测数据集。
配置评估任务:创建持续运行的评估任务,监控线上数据质量。
设置告警阈值:对关键评估指标设置告警,及时发现质量问题。
实践二:建立Prompt版本管理规范
使用实验计划管理Prompt:每个业务场景创建独立的实验计划。
版本命名规范:使用语义化版本号(如v1.0.0-基础版)。
变更记录:在实验描述中记录每次变更的原因和效果。
定期回归:定期运行历史实验,确保新版本不退化。
实践三:数据飞轮建设
数据采集:确保全量采集AI应用运行时数据。
数据清洗:通过评估任务自动识别和标注问题数据。
数据沉淀:将优质数据沉淀到Dataset,构建企业数据资产。
数据应用:将数据用于模型微调、Prompt优化、知识库更新。
实践四:成本优化
监控Token消耗:通过Token分析监控各应用的成本消耗。
模型选型:通过实验对比不同模型的性价比。
采样策略:对非核心数据使用采样评估,降低成本。
资源清理:定期清理无用的Dataset和实验记录。