使用LLM-计数过滤按字符数或比例过滤文本样本-人工智能平台 PAI-阿里云

文档备案控制台

LLM-计数过滤组件主要用于大语言模型（LLM）的文本数据预处理工作，根据字母、数字、分隔符的个数过滤样本。

使用限制

仅支持MaxCompute计算引擎。

算法简介

LLM-计数过滤组件支持以下功能：

根据数字字符个数或比例过滤
统计文本中的数字字符的个数，根据阈值过滤样本。或者根据字符个数占总文本长度的比例过滤样本。如果指定文本分隔符，则根据分隔符拆分文本，并以单词为单位进行统计。
根据字母字符个数或比例过滤
统计文本中的字母字符的个数，根据阈值过滤样本。或者根据字符个数占总文本长度的比例过滤样本。如果指定文本分隔符，则根据分隔符拆分文本，并以单词为单位进行统计。
根据数字和字母字符个数或比例过滤
统计文本中是数字或者字母的字符个数，根据阈值过滤样本。或者根据字符个数占总文本长度的比例过滤样本。如果指定文本分隔符，则根据分隔符拆分文本，并以单词为单位进行统计。
根据字母字符占文本token比例过滤
统计文本中所有字母字符的个数，并使用pythia-6.9b-deduped模型将文本切分为token，计算字母字符和token个数的比值。根据比值过滤样本。
根据分隔符个数过滤
统计文本中的分隔符个数，根据阈值过滤样本。

可视化配置参数

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列，支持选择多个列。	无
	文本分隔符	否	默认空格，以空格分隔文本。根据分隔符将文本拆分成单词列表，以单词为单位统计是否为数字或者字母。如果置空，则不做拆分，以字符为单位进行统计。分隔符需用半角双引号（""）括起来。	默认空格。
	是否根据数字字符个数或比例过滤	否	数字字符个数或比例最小值：数字字符个数或占文本长度比例小于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数计算。数字字符个数或比例最大值：数字字符个数或占文本长度比例大于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数进行计算。	无
	是否根据字母字符个数或比例过滤	否	字母字符个数或比例最小值：字母字符个数或占文本长度比例小于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数进行计算。字母字符个数或比例最大值：字母字符个数或占文本长度比例大于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数计算。	无
	是否根据数字和字母字符个数或比例过滤	否	数字和字母字符个数或比例最小值：数字和字母字符占文本长度比例小于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数进行计算。数字和字母字符个数或比例最大值：数字和字母字符占文本长度比例大于该值将被过滤掉。如果值在0.0~1.0之间，则按照个数占总长度的比例进行计算；如果值大于1，则按照个数进行计算。	无
	是否根据字母字符占文本token比例过滤	否	字母占文本token比例最小值：字母占文本token比例小于该值将被过滤掉。统计文本中的所有字母字符个数，并使用pythia-6.9b-deduped模型将文本切分为token，计算字母个数和token个数的比值。字母占文本token比例最大值：字母占文本token比例大于该值将被过滤掉。统计文本中的所有字母字符个数，并使用pythia-6.9b-deduped模型将文本切分为token，计算字母个数和token个数的比值。	无
	是否根据分隔符个数过滤	否	分隔符个数最小值：文本中的分隔符个数小于该值将被过滤掉。仅支持按个数过滤。分隔符个数最大值：文本中的分隔符个数大于该值将被过滤掉。仅支持按个数过滤。	无
	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28
执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256

相关文档

关于Designer组件更详细的内容介绍，请参见Designer概述。

上一篇：LLM-Copyright信息移除（MaxCompute）下一篇：LLM-长度过滤（MaxCompute）

该文章对您有帮助吗？