Pipeline预置模板总览-云监控(CMS)-阿里云帮助中心

文档备案控制台

输入文档关键字查找

AI Agent运行时产生的对话日志需要清洗、去重、评估和标注。CMS提供9个开箱即用的Pipeline预置模板，覆盖数据治理典型场景，支持按业务目标或角色快速选择模板，也支持在模板基础上自由定制。

模板速览

下表列出全部预置模板的业务场景、算子链和复杂度。

序号	模板	业务场景	算子链	复杂度
1	数据去重清洗	快速去除重复日志，产出干净数据集	`project` > `where` > `dedup-exact` > `dedup-fuzzy`	低
2	多样性采样	三级去重 + 聚类采样，构建代表性子集	`project` > `dedup-exact` > `dedup-fuzzy` > `dedup-semantic` > `semantic-cluster` > `sample`	中
3	对话质量评估	多维度自动化评分，替代人工评审	`project` > `dedup-exact` > `sample` > `llm-call`(eval)	中
4	自动标注分类	结构化多维标注，产出训练标签	`project` > `dedup-exact` > `llm-call`(anno)	中
5	数据增强合成	种子数据多样化合成样本	`project` > `sample` > `llm-call`(synthetic)	中
6	端到端全流程	清洗、采样、评估、标注、合成一站式处理	`project` > `extend` > `dedup` x 3 > `cluster` > `sample` > `llm-call` x 3 > `doc-stats`	高
7	仿真数据Demo	基于Mock Data的4场景演示	`project` > `where` > `make-instance` > `dedup` x 3 > `cluster` > `llm-call` x 2 > `doc-stats`	低~高
8	OT-LLM质量分析	Span-LLM粒度的LLM调用质量评估	`extend` > `make-instance` > `where` > `dedup-exact` > `doc-stats` > `sample` > `llm-call`	高
9	OT-Trace 数据治理	Trace粒度的三级去重 + 聚类 + 评估 + 标注	`where` > `extend` > `make-instance` > `dedup` x 3 > `cluster` > `sample` > `llm-call` x 2	高

快速选择指南

按目标选择

我想要...	推荐模板
快速清理重复数据	数据去重清洗
构建评测数据集	多样性采样
评估Agent输出质量	对话质量评估
给数据打标签或分类	自动标注分类
扩充训练数据	数据增强合成
全流程数据治理	端到端全流程
快速体验Pipeline全部能力	仿真数据Demo
分析LLM调用质量	OT-LLM质量分析
Trace级数据治理全链路	OT-Trace 数据治理

按角色选择

角色	推荐模板
数据工程师	数据去重清洗、多样性采样
算法工程师	多样性采样、对话质量评估、数据增强合成
评测工程师	对话质量评估、自动标注分类
数据平台团队	端到端全流程、仿真数据Demo
新用户上手	仿真数据Demo
OT数据使用者	OT-LLM质量分析、OT-Trace 数据治理

使用方式

直接使用

选择合适的模板。
在模板目录中获取完整的JSON配置。
修改source（数据源）和sink（目标Dataset）配置，将数据源名称替换为实际的SLS Logstore或MaxCompute表名，将目标Dataset替换为已创建的Dataset名称。
调整pipeline.nodes中的project节点，将字段映射修改为实际日志中的字段名。例如将模板中的示例字段名a、b替换为实际的host_name、metric_name等。
通过以下方式提交Pipeline创建请求：
- 控制台：登录AgentLoop控制台，在左侧导航栏数据集-数据处理中，选择应用模板，挑选所需模板，单击创建任务。

在模板基础上定制

选择最接近的模板作为起点。
参考模板文档中的定制建议章节。
根据需要增减节点、调整参数或替换Prompt。

多算子自由组合编排

不同模板中的算子可自由组合。例如：

多样性采样的去重采样 + 对话质量评估的评估Prompt。
数据去重清洗的清洗 + 数据增强合成的合成。

算子能力矩阵

下表展示各模板使用的算子，便于对比和组合选择。

算子	数据去重清洗	多样性采样	对话质量评估	自动标注分类	数据增强合成	端到端全流程	仿真数据Demo	OT-LLM质量分析	OT-Trace数据治理
`project`	Y	Y	Y	Y	Y	Y	Y	-	-
`extend`	-	-	-	-	-	Y	Y	Y	Y
`where`	Y	-	-	-	-	Y	Y	Y	Y
`make-instance`	-	-	-	-	-	Y	Y	Y	Y
`dedup-exact`	Y	Y	Y	Y	-	Y	Y	Y	Y
`dedup-fuzzy`	Y	Y	-	-	-	Y	Y	Y	-
`dedup-semantic`	-	Y	-	-	-	Y	Y	Y	-
`embedding`	-	-	-	-	-	-	-	-	Y
`doc-stats`	-	-	-	-	-	Y	Y	-	Y
`semantic-cluster`	-	Y	-	-	-	Y	Y	Y	Y
`sample`	-	Y	Y	-	Y	Y	Y	Y	Y
`llm-call`	-	-	Y	Y	Y	Y	Y	Y	Y

常见问题

数据源连接失败

现象：Pipeline创建或运行时提示数据源连接错误。

排查方向：

检查source中的数据源名称是否拼写正确，且数据源已存在。
确认CMS服务对数据源具有读取权限。如使用SLS Logstore，需确保已完成RAM授权。
确认数据源所在地域与Pipeline所在地域一致。

Pipeline执行失败

现象：Pipeline运行状态显示失败，节点报错。

排查方向：

检查project节点的字段映射是否与实际数据源的字段名匹配。
检查算子参数格式是否正确，例如where节点的filter表达式语法。
如使用llm-call或agentic-call节点，确认Prompt中的{{列名}}占位符与fields参数中声明的列名一致。

上一篇：agentic-call（智能体调用）下一篇：数据去重清洗

该文章对您有帮助吗？