AI Agent运行时产生的对话日志需要清洗、去重、评估和标注。CMS提供9个开箱即用的Pipeline预置模板,覆盖数据治理典型场景,支持按业务目标或角色快速选择模板,也支持在模板基础上自由定制。
模板速览
下表列出全部预置模板的业务场景、算子链和复杂度。
序号 | 模板 | 业务场景 | 算子链 | 复杂度 |
1 | 快速去除重复日志,产出干净数据集 |
| 低 | |
2 | 三级去重 + 聚类采样,构建代表性子集 |
| 中 | |
3 | 多维度自动化评分,替代人工评审 |
| 中 | |
4 | 结构化多维标注,产出训练标签 |
| 中 | |
5 | 种子数据多样化合成样本 |
| 中 | |
6 | 清洗、采样、评估、标注、合成一站式处理 |
| 高 | |
7 | 基于Mock Data的4场景演示 |
| 低~高 | |
8 | Span-LLM粒度的LLM调用质量评估 |
| 高 | |
9 | Trace粒度的三级去重 + 聚类 + 评估 + 标注 |
| 高 |
快速选择指南
按目标选择
我想要... | 推荐模板 |
快速清理重复数据 | |
构建评测数据集 | |
评估Agent输出质量 | |
给数据打标签或分类 | |
扩充训练数据 | |
全流程数据治理 | |
快速体验Pipeline全部能力 | |
分析LLM调用质量 | |
Trace级数据治理全链路 |
按角色选择
角色 | 推荐模板 |
数据工程师 | |
算法工程师 | |
评测工程师 | |
数据平台团队 | |
新用户上手 | |
OT数据使用者 |
使用方式
直接使用
选择合适的模板。
在模板目录中获取完整的JSON配置。
修改
source(数据源)和sink(目标Dataset)配置,将数据源名称替换为实际的SLS Logstore或MaxCompute表名,将目标Dataset替换为已创建的Dataset名称。调整
pipeline.nodes中的project节点,将字段映射修改为实际日志中的字段名。例如将模板中的示例字段名a、b替换为实际的host_name、metric_name等。通过以下方式提交Pipeline创建请求:
控制台:登录AgentLoop控制台,在左侧导航栏数据集-数据处理中,选择应用模板,挑选所需模板,单击创建任务。
在模板基础上定制
选择最接近的模板作为起点。
参考模板文档中的定制建议章节。
根据需要增减节点、调整参数或替换Prompt。
多算子自由组合编排
不同模板中的算子可自由组合。例如:
算子能力矩阵
下表展示各模板使用的算子,便于对比和组合选择。
算子 | 数据去重清洗 | 多样性采样 | 对话质量评估 | 自动标注分类 | 数据增强合成 | 端到端全流程 | 仿真数据Demo | OT-LLM质量分析 | OT-Trace数据治理 |
| Y | Y | Y | Y | Y | Y | Y | - | - |
| - | - | - | - | - | Y | Y | Y | Y |
| Y | - | - | - | - | Y | Y | Y | Y |
| - | - | - | - | - | Y | Y | Y | Y |
| Y | Y | Y | Y | - | Y | Y | Y | Y |
| Y | Y | - | - | - | Y | Y | Y | - |
| - | Y | - | - | - | Y | Y | Y | - |
| - | - | - | - | - | - | - | - | Y |
| - | - | - | - | - | Y | Y | - | Y |
| - | Y | - | - | - | Y | Y | Y | Y |
| - | Y | Y | - | Y | Y | Y | Y | Y |
| - | - | Y | Y | Y | Y | Y | Y | Y |
常见问题
数据源连接失败
现象:Pipeline创建或运行时提示数据源连接错误。
排查方向:
检查
source中的数据源名称是否拼写正确,且数据源已存在。确认CMS服务对数据源具有读取权限。如使用SLS Logstore,需确保已完成RAM授权。
确认数据源所在地域与Pipeline所在地域一致。
Pipeline执行失败
现象:Pipeline运行状态显示失败,节点报错。
排查方向:
检查
project节点的字段映射是否与实际数据源的字段名匹配。检查算子参数格式是否正确,例如
where节点的filter表达式语法。如使用
llm-call或agentic-call节点,确认Prompt中的{{列名}}占位符与fields参数中声明的列名一致。