Pipeline预置模板总览

更新时间:
复制为 MD 格式

AI Agent运行时产生的对话日志需要清洗、去重、评估和标注。CMS提供9个开箱即用的Pipeline预置模板,覆盖数据治理典型场景,支持按业务目标或角色快速选择模板,也支持在模板基础上自由定制。

模板速览

下表列出全部预置模板的业务场景、算子链和复杂度。

序号

模板

业务场景

算子链

复杂度

1

数据去重清洗

快速去除重复日志,产出干净数据集

project > where > dedup-exact > dedup-fuzzy

2

多样性采样

三级去重 + 聚类采样,构建代表性子集

project > dedup-exact > dedup-fuzzy > dedup-semantic > semantic-cluster > sample

3

对话质量评估

多维度自动化评分,替代人工评审

project > dedup-exact > sample > llm-call(eval)

4

自动标注分类

结构化多维标注,产出训练标签

project > dedup-exact > llm-call(anno)

5

数据增强合成

种子数据多样化合成样本

project > sample > llm-call(synthetic)

6

端到端全流程

清洗、采样、评估、标注、合成一站式处理

project > extend > dedup x 3 > cluster > sample > llm-call x 3 > doc-stats

7

仿真数据Demo

基于Mock Data4场景演示

project > where > make-instance > dedup x 3 > cluster > llm-call x 2 > doc-stats

低~高

8

OT-LLM质量分析

Span-LLM粒度的LLM调用质量评估

extend > make-instance > where > dedup-exact > doc-stats > sample > llm-call

9

OT-Trace 数据治理

Trace粒度的三级去重 + 聚类 + 评估 + 标注

where > extend > make-instance > dedup x 3 > cluster > sample > llm-call x 2

快速选择指南

按目标选择

我想要...

推荐模板

快速清理重复数据

数据去重清洗

构建评测数据集

多样性采样

评估Agent输出质量

对话质量评估

给数据打标签或分类

自动标注分类

扩充训练数据

数据增强合成

全流程数据治理

端到端全流程

快速体验Pipeline全部能力

仿真数据Demo

分析LLM调用质量

OT-LLM质量分析

Trace级数据治理全链路

OT-Trace 数据治理

按角色选择

角色

推荐模板

数据工程师

数据去重清洗多样性采样

算法工程师

多样性采样对话质量评估数据增强合成

评测工程师

对话质量评估自动标注分类

数据平台团队

端到端全流程仿真数据Demo

新用户上手

仿真数据Demo

OT数据使用者

OT-LLM质量分析OT-Trace 数据治理

使用方式

直接使用

  1. 选择合适的模板。

  2. 在模板目录中获取完整的JSON配置。

  3. 修改source(数据源)和sink(目标Dataset)配置,将数据源名称替换为实际的SLS LogstoreMaxCompute表名,将目标Dataset替换为已创建的Dataset名称。

  4. 调整pipeline.nodes中的project节点,将字段映射修改为实际日志中的字段名。例如将模板中的示例字段名ab替换为实际的host_namemetric_name等。

  5. 通过以下方式提交Pipeline创建请求:

    • 控制台:登录AgentLoop控制台,在左侧导航栏数据集-数据处理中,选择应用模板,挑选所需模板,单击创建任务。

在模板基础上定制

  1. 选择最接近的模板作为起点。

  2. 参考模板文档中的定制建议章节。

  3. 根据需要增减节点、调整参数或替换Prompt。

多算子自由组合编排

不同模板中的算子可自由组合。例如:

算子能力矩阵

下表展示各模板使用的算子,便于对比和组合选择。

算子

数据去重清洗

多样性采样

对话质量评估

自动标注分类

数据增强合成

端到端全流程

仿真数据Demo

OT-LLM质量分析

OT-Trace数据治理

project

Y

Y

Y

Y

Y

Y

Y

-

-

extend

-

-

-

-

-

Y

Y

Y

Y

where

Y

-

-

-

-

Y

Y

Y

Y

make-instance

-

-

-

-

-

Y

Y

Y

Y

dedup-exact

Y

Y

Y

Y

-

Y

Y

Y

Y

dedup-fuzzy

Y

Y

-

-

-

Y

Y

Y

-

dedup-semantic

-

Y

-

-

-

Y

Y

Y

-

embedding

-

-

-

-

-

-

-

-

Y

doc-stats

-

-

-

-

-

Y

Y

-

Y

semantic-cluster

-

Y

-

-

-

Y

Y

Y

Y

sample

-

Y

Y

-

Y

Y

Y

Y

Y

llm-call

-

-

Y

Y

Y

Y

Y

Y

Y

常见问题

数据源连接失败

现象:Pipeline创建或运行时提示数据源连接错误。

排查方向

  • 检查source中的数据源名称是否拼写正确,且数据源已存在。

  • 确认CMS服务对数据源具有读取权限。如使用SLS Logstore,需确保已完成RAM授权。

  • 确认数据源所在地域与Pipeline所在地域一致。

Pipeline执行失败

现象:Pipeline运行状态显示失败,节点报错。

排查方向

  • 检查project节点的字段映射是否与实际数据源的字段名匹配。

  • 检查算子参数格式是否正确,例如where节点的filter表达式语法。

  • 如使用llm-callagentic-call节点,确认Prompt中的{{列名}}占位符与fields参数中声明的列名一致。