LLM大语言模型数据处理-Alpaca-Cot-人工智能平台 PAI(PAI)-阿里云帮助中心

以开源Alpaca-CoT的少量数据为例，演示如何使用PAI的大模型数据处理DLC组件对SFT数据进行清洗。DLC组件基于分布式Ray框架，支持大规模数据处理和智能聚合，可减少不必要的数据存储操作。详细说明请参见大模型数据处理组件聚合成组。

数据集说明

本工作流数据集从开源项目Alpaca-CoT的原始数据中抽取5000个样本。

进入Designer页面。
1. 登录PAI控制台。
2. 在顶部左上角根据实际情况选择地域。
3. 在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间。
4. 在左侧导航栏选择模型开发与训练 > 可视化建模（Designer），进入Designer页面。
创建工作流。
1. 在预置模板页签下，选择业务领域 > LLM 大语言模型，单击LLM大语言模型数据处理-Alpaca-Cot (sft数据）- DLC组件模板卡片上的创建。
2. 配置工作流参数（或保持默认），单击确定。
3. 在工作流列表，选择已创建的工作流，单击进入工作流。

工作流说明：

工作流中关键算法组件说明：

LLM-MD5去重（DLC）-1
计算“text”字段文本哈希值，并去除重复的文本（哈希值相同的文本仅保留一个）。
LLM-计数过滤（DLC）-1
将“text”字段中不符合数字和字母字符占比的样本去除。SFT数据集中大部分字符都由字母和数字组成，通过该组件可以去除部分脏数据。
LLM-N-Gram重复比率过滤（DLC）-1
根据”text”字段的字符级N-Gram重复比率过滤样本。将文本按字符进行大小为N的滑动窗口操作，形成长度为N的片段序列。每个片段称为gram，统计所有gram的出现次数。最后计算频次大于1的gram的频次总和 / 所有gram的频次总和的比率作为重复比率，过滤样本。
LLM-敏感词过滤（DLC）-1
使用系统预置敏感词文件过滤“text”字段中包含敏感词的样本。
LLM-长度过滤（DLC）-1
根据”text”字段的长度和最大行长度过滤样本。最大行长度按换行符\n分割文本后计算。
LLM-SimHash相似度去重（DLC）-1
根据设置的window_size、num_blocks和hamming_distance值去除相似的样本。

运行工作流。
运行结束后，右键单击LLM-SimHash相似度去重（DLC）-1组件，选择查看数据 > 输出数据（OSS），查看所有组件处理后的样本文件。