常见问题
本文解答 AgentLoop 在产品认知、接入与快速上手、全栈观测、评估与实验方面的常见问题。
产品认知
AgentLoop 是什么?
AgentLoop 是阿里云面向企业级智能体的全生命周期管理平台,围绕"观测与审计 → 评估与实验 → 持续优化"三个阶段,持续提升企业 Agent 的质量、效率与安全性,优化使用成本。如需了解完整的产品架构和核心能力,参见什么是 AgentLoop。
AgentLoop 与传统 APM/LLMOps 工具有什么区别?
传统 APM 工具面向常规微服务,无法理解 Agent 的多步推理链路和 Token 消耗结构;LLMOps 工具面向 LLM 范式,仅提供碎片化的可观测和基础评估能力。AgentLoop 面向 Agent 范式设计,核心差异体现在以下三个方面:
维度 | 传统 APM/LLMOps | AgentLoop |
全栈观测 | 面向微服务或单次 LLM 调用 | 端到端无侵入采集,自动提取 Trajectory(完整执行轨迹) |
评估体系 | 基于规则或单轮文本判断 | 引入 Agent-as-a-Judge,评估器本身具备规划和多步推理能力 |
优化闭环 | 单点工具,观测与优化割裂 | 构建从观测到优化的完整闭环数据飞轮 |
接入与快速上手
如何申请试用 AgentLoop?
当前 AgentLoop 处于邀测阶段,请访问 AgentLoop 控制台 联系 AgentLoop 团队申请加白名单,申请时需提供主账号 UID。接入完整流程可参考AgentLoop QuickStart 全流程实践。
子账号能申请邀测白名单吗?
不能。AgentLoop 邀测白名单仅接受主账号 UID。子账号用户需先由主账号持有人申请加白,加白完成后可通过 RAM 授权给子账号使用。RAM 授权的具体策略和操作方式,参见RAM权限策略参考。
多应用部署时如何区分不同的 Agent 应用?
同一接入环境下区分多应用,只需在启动参数中设置不同的 --serviceName,其余参数(licenseKey、workspace、project、endpoint)可保持一致。例如用 Docker 启动多个实例分别服务不同用户时,每个实例配置不同的 serviceName 即可在 AgentLoop 控制台按应用维度独立观测。
AgentSpace 如何组织和管理资源?
AgentSpace 是 AgentLoop 中组织和管理资源的顶层工作空间,一个 AgentSpace 对应一个团队、业务线或独立项目的完整资源边界。建议为每个业务域(如客服、运维、研发)创建独立的 AgentSpace 实现资源隔离,基于阿里云 RAM 进行权限控制。AgentSpace 的创建和管理操作详见空间管理。
全栈观测
AgentLoop 能观测到 Agent 的哪些数据?
AgentLoop 采集覆盖 Agent 全栈调用链路:用户终端 → 网关 → Agent 智能体 → 上下游依赖(Tool、Model)。具体数据包括:
Trajectory(完整执行轨迹):Agent 从接收请求到返回结果的完整决策和执行路径。
模型调用:输入/输出内容、Token 消耗、延迟。
工具调用:调用参数、返回值、耗时、状态。
对话记录:完整的多轮交互上下文。
错误信息:异常堆栈和错误分类。
性能指标:端到端延迟、各环节耗时占比。
同时使用 Agent 框架和裸 OpenAI SDK 时如何避免重复采集?
如果同时启用 Agent 框架插件和 OpenAI 插件,会导致 LLM Span 重复采集。建议二选一:若已通过框架探针采集到完整链路(含 LLM 调用),则无需再单独接入 OpenAI 插件。
会话数据如何查询?有 SDK 吗?
AgentLoop 暂无独立的会话查询 SDK,会话级数据通过 SLS SQL 查询实现。典型做法:按 attributes.gen_ai.session.id 聚合,可统计单会话的以下维度:
维度 | 说明 |
| 会话中的对话轮次 |
| 输入和输出的 Token 消耗量 |
| 模型调用次数 |
| 工具调用次数 |
| Agent 调用次数 |
| 会话活跃时长 |
| 会话总耗时 |
评估与实验
什么是 Agent-as-a-Judge?与传统 LLM-as-a-Judge 有什么区别?
Agent-as-a-Judge 是 AgentLoop 引入的评估范式——评估器本身作为具备规划、工具使用和推理能力的 Agent,基于完整 Trajectory 轨迹进行深度评估。与传统 LLM-as-a-Judge 仅做单轮文本判断不同,Agent-as-a-Judge 能够:
理解多步推理过程。
分析工具调用的合理性。
追踪决策分支逻辑。
这使其评估效果更接近人类专家。
多轮 Session 评估是否支持?
当前评估器仅支持按单次 Trace / Trajectory 评估单轮交互。多轮 Session 评估已纳入产品后续重点能力规划,预计 2026 年 9 月左右上线。