什么是 AgentLoop-阿里云帮助中心

Agent 观测与优化 AgentLoop（简称 AgentLoop）是阿里云推出的面向企业级智能体的一站式自进化平台，提供 Agent 全栈观测与审计、Agent 评估与实验、Agent 资产管理与持续优化等核心能力，助力企业构建智能体进化数据飞轮，持续提升企业 Agent 的质量、效率、成本与安全性。

不同于传统 LLMOps 工具仅面向大模型（LLM）应用提供 LLM-as-a-Judge、LLM Playground 等单点功能，AgentLoop 面向企业真实生产环境 Agent 应用，提供 Agent-as-a-Judge、Agent Playground、Trace2Dataset 等 Agent 应用范式的场景化闭环能力，让 Agent 在生产环境中形成可观测、可评估、可优化的持续进化飞轮。

为什么需要 AgentLoop

当企业从 LLM 应用迈入 Agent 应用阶段，传统 APM 和 LLMOps 工具集体失灵。Agent 的多步推理、工具调用、多模型协作等特性带来四大核心挑战：

质量退化难感知——Agent 多步推理输出质量下降，故障定位平均超 2 小时，只能被动等待工单和客诉暴露问题。

成本暴涨难归因——Token 异常消耗可达平峰期的 10 倍以上，却缺乏精细归因手段，无法实施 FinOps 治理。

变更风险难拦截——Prompt、Skill、模型变更缺乏自动化质量门禁，大部分变更故障本可拦截却被放过至线上，造成业务损失。

行为审计无留痕——Agent 多步执行轨迹缺乏审计与回放能力，难以满足金融、政企等行业合规留痕要求。

AgentLoop 正是为解决这些问题而生，提供 Agent 全栈观测、审计、评估、实验、资产管理、上下文工程等一站式服务，助力企业用户持续进化智能体效果，让 Agent 越用越聪明——更好、更快、更省、更安全。

设计理念

AgentLoop 的核心设计理念体现在四个方面：

面向 Agent 而非 LLM 设计——贯穿观测、审计、评估、实验、优化等核心场景，针对 Agent 范式进行能力升级。传统 LLMOps 工具围绕单次模型调用设计，无法应对 Agent 多步推理、动态规划和工具编排等复杂行为。AgentLoop 以 Agent 完整执行轨迹为核心对象，覆盖从规划到执行到反馈的全过程。

企业级生产场景闭环——面向真实业务上线的端到端场景闭环，而非停留在 Demo 层面的单点功能。从数据采集、质量评估到持续优化，每个环节都为企业生产环境量身设计，支持高并发、高可用和多团队协作。

核心能力 Agentic 化——评估器等核心组件自身即 Agent，支持用户通过 Prompt、Skill、Tool 灵活扩展。例如 Agent-as-a-Judge 评估器可以使用工具、调用外部系统、执行多步推理来完成复杂评估任务，而非简单的 Prompt 模板填充。

全面兼容主流框架与运行时——不绑定特定 Agent 开发框架或运行时，全面兼容 Dify、LangChain/LangGraph、AgentScope、OpenClaw、Hermes 等各类框架，Qoder/Claude Code/Codex/Cursor 等各类 CLI，以及阿里云 AgentRun、AgentTeams、ACS 及第三方运行时，无侵入接入不影响现有业务架构。

功能特性

Agent 全栈观测

AgentLoop 通过阿里云自研探针、开源探针以及云产品深度集成，支持 Agent 端到端无侵入采集链路、指标和日志等观测数据。基于 UModel 自动发现 Agent → Tool → Model 等上下游实体拓扑关系，构建 Agent Ontology 全栈拓扑视图，结合 STAROps 智能诊断引擎快速定位性能瓶颈与 Token 消耗热点。

调用链（Trace）记录一次 Agent 请求从开始到结束的完整执行过程，包括用户输入、模型调用、工具调用、检索增强、记忆读取、最终回复等步骤。通过调用链，开发者可以还原 Agent 的推理和执行路径，定位慢请求、错误请求、异常工具调用和效果不佳的 Bad Case。

Agent 行为审计

AgentLoop 为 Agent 每一步工具调用和决策分支构建不可篡改的执行轨迹证据链，实现 100% 行为留痕。平台内置异常行为检测引擎，可实时识别越权操作、数据外发等风险模式，分钟级完成异常风险预警。

Agent 评估

AgentLoop 引入 Agent-as-a-Judge 评估范式——评估器本身就是具备复杂任务规划、工具使用和多步推理能力的 Agent，基于 Trajectory 轨迹进行深度评估，相比传统的 LLM-as-a-Judge 更接近人类专家真实评估效果。

AgentLoop 支持对模型输出、RAG 检索结果、工具调用、Agent 执行轨迹等进行评估。评估器数据源支持链路、日志或数据集。评估器类型包括预置评估器（如幻觉、正确性、任务完成度等）和自定义评估器。评估结果可用于发现 Bad Case、监控线上质量、验证版本变更是否带来退化等。

Agent 实验

AgentLoop 提供 Playground 在线实验对比，支持 Agent 与 LLM 两种类型实验，分别适用于企业真实智能体或沙箱环境验证。此功能预计于2026年6月30日前正式上线。

数据中心

数据集是 AgentLoop 为 AI 场景设计的新型数据存储，在传统日志存储的基础上提供完整 CRUD、灵活 Schema、向量检索与多维分析能力，让 AI 运行时数据从"只读日志"升级为"可管理资产"。

通过内置 Pipeline 数据处理引擎可将线上运行产生的海量 Trace 数据转化为可持续利用的高质量数据资产（Golden Dataset 或 BadCase Dataset），支持多步流程编排：数据源接入 → 数据降维（过滤/去重/采样）→ 特征提取 → 写入目标数据集。整个过程自动化运行，节省 90% 以上的人工数据处理成本。

记忆库

AgentLoop 记忆库是为 AI Agent 打造的核心记忆层，提供持久化的记忆能力：

保持跨越会话的连贯性：长期保存关键信息（如对话历史、任务状态、决策依据），并通过高效的检索与上下文注入机制，在新的交互中动态地为模型提供相关背景。
高度自适应的个性化：系统性地记录用户的偏好，如格式要求、沟通风格等，也能记住历史行为模式与长期目标，使模型能够生成高度定制化的输出。
基于历史信息的深度推理：通过赋予 AI Agent 记忆、学习和进化的能力，显著提升交互的连续性和智能水平。

记忆策略包含事实（Facts）、情节（Episodic）、摘要（Summary）和自定义策略四种类型，分别对应不同的记忆提取与组织方式，覆盖从具体事件到抽象总结的全谱段。

Agent 资产

AgentLoop 资产管理为企业智能体的 Prompts 与 Skills 提供集中管理、版本控制与协同迭代能力。Agent 资产是构成 Agent 行为逻辑的核心单元，一个 Agent 的表现很大程度取决于这些资产中行为逻辑的正确性与一致性。AgentLoop 让团队像管理代码一样管理 Agent 行为：每次变更可回溯，效果可对比度量，上线节奏可控，支持灰度发布与多人协同编辑。

功能优势

Agent 级观测而非 LLM 级观测

传统 LLMOps 工具的观测粒度止于单次模型调用，无法理解多步推理链路中步骤间的因果关系和上下游依赖。AgentLoop 以完整 Agent 执行轨迹为观测对象，自动解析 Agent → Tool → Model 的拓扑结构，支持从业务视角（如一次用户请求端到端耗时）和技术视角（如某个工具调用失败导致重试 3 次）同时进行分析。

Agent-as-a-Judge 评估范式

AgentLoop 的评估器本身就是 Agent，具备使用工具、检索外部知识、执行多步推理的能力。相比 LLM-as-a-Judge 仅通过 Prompt 模板对模型输出做单轮判断，Agent-as-a-Judge 可以回放完整执行轨迹、调用验证工具复核结果正确性、对比历史基准数据，评估效果更接近人类专家水平。

Trace2Dataset 自动化数据飞轮

AgentLoop 的 Pipeline 引擎可将线上实时产生的 Trace 数据自动转化为结构化数据集，简化数据清洗过程。通过过滤、去重、采样、聚类等处理步骤，原始运行数据被持续加工为 Golden 数据集、Bad Case 数据集或后训练数据集，实现"数据越跑越多、质量越用越高"的飞轮效应。

零侵入接入与框架无关

AgentLoop 提供基于阿里云自研探针的零侵入接入方式，业务代码无需任何改造，仅通过配置修改即可完成数据采集。同时支持 OpenTelemetry 标准协议接入，兼容 LangChain/LangGraph、AgentScope、Dify、OpenClaw、Claude Agent SDK 等主流 Agent 框架，以及各类自研 Agent 系统。

企业级安全与合规

AgentLoop 提供 100% 行为留痕的审计能力，每一步工具调用和决策分支均构建不可篡改的执行轨迹证据链。内置异常行为检测引擎可实时识别越权操作、敏感数据泄露等风险模式，满足金融、政企、医疗等行业的合规留痕和监管审查要求。

上下文工程闭环优化

AgentLoop 通过记忆库和经验库（内测中）为 Agent 提供长期上下文能力。记忆让 Agent 跨会话理解用户背景和偏好，经验让 Agent 从历史执行中学习最佳实践。两者结合，Agent 可以在每一轮交互中自动检索相关上下文注入运行时，实现"越用越聪明"的自进化效果，而无需重新训练模型。

应用场景

智能客服质量提升

企业智能客服 Agent 面对大量真实用户对话，回复质量直接影响客户满意度。AgentLoop 可对客服 Agent 的每轮对话进行质量评估，自动识别答非所问、幻觉回答、信息遗漏等 Bad Case，并将高频问题沉淀为数据集用于定向优化。通过记忆库保持用户偏好的连续性，配合经验库沉淀复杂问题的最佳应答模式，持续提升客服 Agent 的解决率和用户满意度。

Coding Agent 质量守护

Coding Agent（如 AI 代码助手、自动化编程工具）产出的代码质量参差不齐，传统 Code Review 无法覆盖 Agent 决策过程中的推理质量。AgentLoop 支持对 Coding Agent 的完整执行轨迹进行观测和评估，包括任务规划合理性、工具调用准确性、代码产出正确性等多维度，帮助团队在 Agent 上线前通过实验验证版本变更效果，在线上通过持续评估拦截质量退化。

Agent 版本迭代的质量门禁

企业 Agent 应用频繁进行 Prompt 调优、模型升级、Skill 新增等变更。AgentLoop 的实验能力支持团队在变更前基于历史数据集进行 A/B 对比实验，量化新版本在准确性、延迟、成本等维度的表现差异。结合评估体系建立自动化质量门禁，确保只有通过回归测试的变更才能发布到线上环境，将变更故障拦截在上线前。

企业 Agent 成本治理（FinOps）

当企业同时运行多个 Agent 应用时，Token 消耗和模型调用成本可能快速增长且难以归因。AgentLoop 的全栈观测能力精确追踪每个 Agent、每个工具调用、每次模型推理的 Token 消耗和耗时，帮助企业识别成本热点（如某个工具频繁超时触发重试、某个 Prompt 模板 Token 消耗异常）。通过实验对比不同模型和配置的成本效率比，实现精细化的 Agent FinOps 治理。

金融政企合规审计

金融、政务等强监管行业要求 AI 系统的每一步决策过程可追溯、可审计。AgentLoop 的行为审计能力为 Agent 执行过程提供完整的证据链留痕，支持按时间、用户、Agent 应用等维度进行审计回放。内置的异常行为检测引擎可实时预警越权操作和敏感数据访问，帮助企业满足监管合规要求。

最佳实践

渐进式接入路径

AgentLoop 推荐以下渐进式接入路径：

观测先行：通过自研探针完成 Agent 全链路数据接入，5 分钟内在控制台看到 Trace 数据，快速建立可观测性基线。
数据资产化：利用 Pipeline 将线上 Trace 自动转化为结构化数据集，结合标注沉淀 GroundTruth，从被动积累日志转变为主动构建数据资产。
建立评估体系：构建或选择合适的评估器，面向在线业务进行实时质量评估，同时结合数据集与实验回测建立 Agent 质量度量基准线。
持续优化闭环：通过 Agent 资产调优，或者利用记忆库和经验库提升 Agent 长期表现，实现数据飞轮正循环。

评估体系建设建议

评估体系是 AgentLoop 数据飞轮的核心驱动力，建议从以下维度构建：

从预置评估器起步：AgentLoop 提供开箱即用的预置评估器（如幻觉、正确性、任务完成度等），适合快速建立基线。
构建业务专属自定义评估器（Agent-as-a-Judge）：对于复杂场景（如多步推理正确性、工具调用合理性），编写业务自定义 Prompt、Skills，获得更接近人类专家的评估效果。
结合人工反馈校准：定期通过人工标注验证评估器 Agent 的准确性，持续校准评估标准。
建立版本回归测试：每次 Agent 变更前，基于历史评估数据集进行实验回归测试，量化变更影响。

数据集管理规范

数据集是评估、实验和优化的基础，建议按用途进行分类管理：

评估基准集：经过人工审核的高质量样本集，作为评估的黄金标准。
Bad Case 集：通过评估识别的失败案例集合，用于定向优化和回归测试。
线上采样集：Pipeline 自动从线上 Trace 采样生成的数据集，用于持续监控和趋势分析。
实验数据集：为特定实验计划准备的数据集，确保实验结果的可比性和可复现性。

Agent 资产的版本管理

AgentLoop 建议以代码管理的思维管理 Agent 资产：

每次 Prompt 或 Skill 变更创建新版本，保留完整变更历史。
变更上线前通过实验验证效果差异，明确量化收益或风险。
利用灰度发布能力逐步放量，观察线上指标无异常后全量发布。
多人协同编辑时明确变更责任人和评审流程，避免冲突。

接入生态

AgentLoop 全面兼容以下 Agent 开发框架和运行时环境：

类别	支持列表
Agent 框架	LangChain/LangGraph、AgentScope、Dify、OpenClaw、Hermes、LlamaIndex、Claude Agent SDK 等
Coding Agent/CLI	Qoder、Claude Code、Codex、Cursor 等
阿里云运行时	AgentRun、AgentTeams、ACS
接入协议	OpenTelemetry 标准协议、ARMS 自动探针、Python/Java SDK 手动埋点、MCP Server

使用限制

限制项	说明
AgentSpace 数量	单账号下可创建多个 AgentSpace 进行资源或权限隔离，默认最大数量限制为50个
Trace 保留时长	Trace 数据默认保留时长为30天，可按需调整
评估并发	单账号默认评估并发度限制为100

快速上手

AgentLoop 提供清晰的渐进式上手路径：1 分钟创建 AgentSpace，5 分钟完成数据接入，1 小时完成首次评估，1 天实现首轮效果优化。

通过AgentLoop 控制台立即体验。