本文介绍如何创建并运行第一条 AgentLoop Pipeline,完成 Agent 数据的自动去重清洗。
Pipeline 处理流程
Pipeline 从 LogStore 读取原始数据,经过多级自动处理(去重、采样、AI 调用等),产出数据沉淀到数据集(Dataset)。
开始之前
已开通 AgentLoop 服务。如未开通,请联系您的管理员或在AgentLoop控制台申请开通。
已开通日志服务 SLS,准备待处理的数据源(Project 和 LogStore)。如未创建,请参见管理LogStore。
步骤一:选择数据源
登录AgentLoop控制台,在左侧导航栏数据集-数据处理中,选择任务管理,单击新建任务。在输入日志库中选择 LogStore 作为数据输入,填写以下信息:
配置项 | 说明 | 示例值 |
Project | 数据所在的 SLS 项目。 |
|
LogStore | 存储 Agent 原始数据的日志库。 |
|
查询条件 | 按服务名等条件筛选数据范围。 |
|
如果查询条件配置错误,系统将提示语法错误。请检查字段名称和查询语法是否正确。
步骤二:配置处理算子
本例使用数据去重清洗模板,选用 5 个算子构成最简处理链路:
序号 | 算子类型 | 算子名称 | 作用 |
1 |
| 字段选取 | 从原始数据中选取 input、output、model、trace_id 等关键字段并统一命名。 |
2 |
| 正则提取 | 从 input 字段中提取真实用户问题。 |
3 |
| 空值过滤 | 过滤掉无效的空记录,只保留有效数据。 |
4 |
| 精确去重 | 完全相同的问题只保留一条。 |
5 |
| 模糊去重 | 仅有微小差异(错别字、标点)的问题视为重复。 |
Pipeline 共提供 13 个处理算子,涵盖基础处理、数据组装、数据清洗、特征计算、数据采样和 AI 处理 6 大类,可根据需求自由组合。完整列表请参见节点总览。
步骤三:配置输出目标
在输出配置中填写 Dataset 存储信息:
配置项 | 说明 | 示例值 |
Workspace | 数据集所在的工作空间。 |
|
Dataset | 目标数据集名称,支持自定义。 |
|
Dataset 名称建议使用有含义的命名,便于后续管理。
步骤四:设置调度策略
Pipeline 支持单次执行和定时执行两种模式,在调度配置中设置执行方式:
配置项 | 说明 | 推荐值 |
调度模式 | 单次执行( | 按需选择 |
起始时间 | 数据读取的起始时间。 | 按需设置 |
执行间隔 | 每次执行的时间间隔(定时模式下生效)。 |
|
步骤五:提交并运行
确认配置无误后,单击提交创建 Pipeline。提交后,若调度模式为定时执行,Pipeline 将按设定间隔自动运行;若为单次执行,需手动单击执行触发运行。
查看运行结果
Pipeline 执行完成后,打开目标 Dataset 查看清洗后的数据。同时可以在 Pipeline 详情页查看以下运行信息:
执行状态:每次调度的运行状态(成功或失败)。若执行失败,单击失败记录查看错误日志,常见原因包括数据源无权限、算子参数错误、输出 Dataset 不存在。
处理统计:输入行数、输出行数、去重数等指标。
执行历史:历史运行记录。
了解更多
完成第一个 Pipeline 后,可以进一步探索以下内容: