核心概念

更新时间:
复制 MD 格式

AgentLoop 围绕数据飞轮构建产品能力,通过持续采集 Agent 运行数据并转化为可复用资产,驱动智能体的迭代优化。

数据飞轮

数据飞轮是 AgentLoop 的核心运作机制,也是理解产品价值的关键。

Agent 在线上运行时持续产生调用链(Trace)、对话记录和日志数据。这些原始数据经过 Pipeline 清洗成调用轨迹(Trajectory),包含用户输入/输出、模型推理、工具调用、检索增强等完整过程与状态指标。基于 Tracjectory 深度加工可沉淀为两类核心数据资产:数据集(Dataset)和经验(Experience)。这些数据资产反过来驱动 Agent 评估与实验、危险行为检测、Prompt/Skill 调优、上下文动态优化等,提升线上 Agent 的效果——进而产生更高质量的运行数据,形成正向增强循环。

飞轮的关键在于:数据一次采集,生成完整 Trajectory 轨迹,在观测、审计、评估、优化四大场景中复用,价值随时间持续增长。

AgentSpace

AgentSpace 是 AgentLoop 中组织和管理资源的顶层工作空间。

一个 AgentSpace 对应一个团队、业务线或独立项目的完整资源边界,其中包括 Agent 应用、数据集、评估任务、实验计划、记忆库和经验库等全部资源。AgentSpace 提供资源隔离、统一管理与权限控制的能力,是企业级多租户治理的基本单元。

典型使用方式:为每个业务域(如客服、运维、研发)创建独立的 AgentSpace,实现资源与权限的清晰隔离。

Agent

Agent 是具备自主决策与多步执行能力的智能体。与传统 LLM 应用只完成单轮输入-输出不同,Agent 能够根据目标进行规划,自主选择和调用工具,在多个步骤间维持状态并动态调整策略,最终完成复杂任务。

在 AgentLoop 的语境中,Agent 是一个通用概念,指代任何具备上述自主执行特征的智能体——无论它基于何种框架构建、运行在哪个平台上。

Agent 应用

Agent 应用是接入 AgentLoop 进行观测、评估和优化的 Agent 应用实例,可以是智能客服、运维助手、代码助手、企业 Copilot 或自研 Agent 系统。

Agent 与 Agent 应用的区别:Agent 是业务概念,描述一个具备自主执行能力的 AI 系统;Agent 应用是资源概念,指已接入 AgentLoop 的具体实例。一个 Agent 应用背后可能包含一个或多个协作的 Agent,但在 AgentLoop 中被视为一个统一的观测与管理单元。

接入后,AgentLoop 持续采集 Agent 应用运行过程中产生的调用链、审计日志等数据,帮助开发者理解 Agent 在真实环境中的表现,并驱动后续的评估与优化流程。

调用轨迹(Trajectory)

调用轨迹记录一次 Agent 请求从接收到完成的完整执行轨迹。一条 Trajectory 包含用户输入、模型推理、工具调用、检索增强、记忆读取、决策分支与最终回复等全部步骤,以及每个步骤的耗时、Token 消耗和状态信息。

Trajectory 是 AgentLoop 数据飞轮的基础数据单元——观测依赖它还原执行路径和定位问题;评估基于它判断输出质量和轨迹合理性;审计结合它识别危险行为攻击链;经验也由它提取沉淀而来。

数据集(Dataset)

数据集是 AgentLoop 管理 Agent 运行时数据的核心载体,用于沉淀可查询、可评估、可实验的结构化高质量数据资产。

用户可以将对话记录、Trajectory、专家标注等信息沉淀到数据集中。每个数据集支持自定义 Schema(字段类型包括 text/long/double/json)、版本管理、全文检索、语义搜索和 SQL 分析。数据集在产品中承担多重角色:作为评估任务的输入数据来源、实验对比的测试集、CI/CD 门禁的回归基准集,以及持续优化的数据基础。

数据集随业务运行通过 Pipeline 自动积累和更新,更新频率支持实时、每日、每周或手动配置。平台后续还提供数据集广场,预置多种场景模板,帮助用户快速构建评估基准。

数据处理(Pipeline)

Pipeline 是 AgentLoop 的自动化数据加工引擎,负责将原始运行数据转化为 Trajectory 或高质量数据集。

Pipeline 支持多步流程编排,典型处理链路为:数据源接入(Trace 链路数据或 SLS 日志)→ 数据降维(过滤、去重、采样)→ 特征提取(Step 轮次、工具调用集等)→ AI 数据加工(主题、意图、标注等)→ 写入目标数据存储(数据集或日志库)。整个过程自动化持续运行,可节省 90% 以上的人工数据处理成本。

评估(Evaluation)

评估用于量化 Agent 输出质量和执行过程质量,将主观的"效果好不好"转化为可追踪、可对比的客观指标。

AgentLoop 支持对模型输出、RAG 检索结果、工具调用和 Agent 执行轨迹进行多维评估。评估器支持预置评估器(覆盖通用、RAG、工具使用、Agent 轨迹等)和自定义评估器。评估方式支持 Agent-as-a-Judge、LLM-as-a-Judge 及人工反馈。评估数据源包括 Trajectory 轨迹、链路、日志和数据集。评估任务支持两种运行策略——基于新数据的持续评估(实时监控质量变化)和基于历史数据的批次评估(离线回归验证)。

评估结果可用于发现 Bad Case、监控线上质量趋势、验证版本变更是否引入退化,并可与 CI/CD 集成实现自动化质量门禁。

实验(Experiment)

实验用于在受控条件下对比不同配置的效果差异,帮助团队在上线前验证改动效果。

用户创建实验计划时,选择目标数据集和评估器组合,定义多组实验变量(Agent 实例、模型版本、Prompt 版本、参数配置、工具配置等),批量运行后对比各组在准确性、质量评分、延迟、Token 消耗和成本等维度的表现。实验结果提供统计显著性分析,帮助团队用数据驱动决策,降低 Prompt 调整、模型升级和 Agent 版本迭代带来的线上风险。

Playground

Playground 是面向快速调试和验证的交互式实验环境。

用户可以在 Playground 中即时调整实验对象,如 Agent、Prompt、模型参数和输入样本,实时查看 Agent/模型输出并挂载评估器对比评估结果。它适用于 Agent 单例/多版本调试、Prompt 快速试验、效果问题排查,以及正式创建实验计划前的可行性验证。Playground 降低了实验门槛,让开发者无需配置完整实验流程即可快速迭代想法。

Agent 资产

Agent 资产是构成 Agent 行为逻辑的核心可管理单元,主要包括 Prompt 和 Skill。

Prompt 定义了 Agent 的角色设定、推理指令和输出规范;Skill 封装了 Agent 完成特定任务的工具调用逻辑和流程编排。在实际工程中,Agent 的表现很大程度取决于这些资产中行为逻辑的正确性与一致性。

AgentLoop 为 Agent 资产提供集中托管、版本控制和变更审计能力——每次修改可回溯,效果可通过关联评估量化对比,Prompt 或 Skill 变更后可自动触发评估验证,确保变更不引入质量退化。团队可以像管理代码一样管理 Agent 行为:变更有记录、效果有度量、上线有把关。

记忆(Memory)

记忆是 AgentLoop 为 Agent 提供的长期上下文管理能力,用于持久化保存用户偏好、历史行为、重要事实和业务知识等信息。

通过记忆,Agent 可以跨会话理解用户背景,在新的交互中自动检索相关记忆并注入上下文,提供更连续、更个性化的服务。记忆库支持四种策略类型:事实记忆(Facts)记录确定性信息、情节记忆(Episodic)保存交互片段、摘要记忆(Summary)压缩长期历史、自定义策略(Custom)适配特殊场景。

记忆可以来自用户对话的自动提取,也可由系统根据历史交互主动生成。平台兼容 Mem0 API 协议,已有 Mem0 用户可无缝迁移。

经验(Experience)

经验是从 Agent 执行轨迹中自动提取的可复用操作知识,记录某类任务中有效的处理方法、决策路径、成功模式或失败教训。

与记忆(Memory)关注"记住用户和环境信息"不同,经验关注"Agent 自身如何更好地完成任务"。例如:某类故障排查的最佳步骤序列、某类工具调用的正确参数组合、某类 Bad Case 的有效修复策略,都可被自动沉淀为经验片段。

经验支持组织级共享——同企业内多个 Agent 应用可共享同一经验库,使单个 Agent 的成功经验能够跨应用复用,加速整体能力提升。