快速开始

更新时间:
复制为 MD 格式

本文介绍如何创建并运行第一条 AgentLoop Pipeline,完成 Agent 数据的自动去重清洗。

Pipeline 处理流程

Pipeline 从 LogStore 读取原始数据,经过多级自动处理(去重、采样、AI 调用等),产出数据沉淀到数据集(Dataset)。

开始之前

  • 已开通 AgentLoop 服务。如未开通,请联系您的管理员或在AgentLoop控制台申请开通。

  • 已开通日志服务 SLS,准备待处理的数据源(Project 和 LogStore)。如未创建,请参见管理LogStore

步骤一:选择数据源

登录AgentLoop控制台,在左侧导航栏数据集-数据处理中,选择任务管理,单击新建任务。在输入日志库中选择 LogStore 作为数据输入,填写以下信息:

配置项

说明

示例值

Project

数据所在的 SLS 项目。

your-project(请根据实际环境填写)

LogStore

存储 Agent 原始数据的日志库。

your-agent-logstore(请根据实际环境填写)

查询条件

按服务名等条件筛选数据范围。

serviceName:your-agent-service(请根据实际环境填写)

说明

如果查询条件配置错误,系统将提示语法错误。请检查字段名称和查询语法是否正确。

步骤二:配置处理算子

本例使用数据去重清洗模板,选用 5 个算子构成最简处理链路:

序号

算子类型

算子名称

作用

1

project

字段选取

从原始数据中选取 input、output、model、trace_id 等关键字段并统一命名。

2

extend

正则提取

从 input 字段中提取真实用户问题。

3

where

空值过滤

过滤掉无效的空记录,只保留有效数据。

4

dedup-exact

精确去重

完全相同的问题只保留一条。

5

dedup-fuzzy

模糊去重

仅有微小差异(错别字、标点)的问题视为重复。

说明

Pipeline 共提供 13 个处理算子,涵盖基础处理、数据组装、数据清洗、特征计算、数据采样和 AI 处理 6 大类,可根据需求自由组合。完整列表请参见节点总览

步骤三:配置输出目标

在输出配置中填写 Dataset 存储信息:

配置项

说明

示例值

Workspace

数据集所在的工作空间。

your-workspace(请根据实际环境填写)

Dataset

目标数据集名称,支持自定义。

agent_data_cleaned

说明

Dataset 名称建议使用有含义的命名,便于后续管理。

步骤四:设置调度策略

Pipeline 支持单次执行定时执行两种模式,在调度配置中设置执行方式:

配置项

说明

推荐值

调度模式

单次执行(once)或定时调度(scheduled)。

按需选择

起始时间

数据读取的起始时间。

按需设置

执行间隔

每次执行的时间间隔(定时模式下生效)。

15m(也可选 5m1h

步骤五:提交并运行

确认配置无误后,单击提交创建 Pipeline。提交后,若调度模式为定时执行,Pipeline 将按设定间隔自动运行;若为单次执行,需手动单击执行触发运行。

查看运行结果

Pipeline 执行完成后,打开目标 Dataset 查看清洗后的数据。同时可以在 Pipeline 详情页查看以下运行信息:

  • 执行状态:每次调度的运行状态(成功或失败)。若执行失败,单击失败记录查看错误日志,常见原因包括数据源无权限、算子参数错误、输出 Dataset 不存在。

  • 处理统计:输入行数、输出行数、去重数等指标。

  • 执行历史:历史运行记录。

了解更多

完成第一个 Pipeline 后,可以进一步探索以下内容:

  • 使用指南:了解 Pipeline 核心概念和全部算子能力。

  • 实践教程:从 10,000 条原始数据到 300 条高质量结果,构建完整 Pipeline。

  • 预置模板总览:9 个覆盖各种场景的预置模板,复制即用。

  • 参考文档:完整的算子参数、REST API 和使用限制。