LLM-特殊字符占比过滤组件参考-人工智能平台 PAI-阿里云

LLM-特殊字符占比过滤组件主要用于大语言模型（LLM）的文本数据预处理工作，根据特殊字符占比过滤样本，保留特殊字符个数占文本总长度比例在指定范围内的样本。

使用限制

仅支持MaxCompute计算引擎。

遍历文本中的每个字符，并统计特殊字符个数占文本总长度的比例。

默认特殊字符包括：标点符号（string.punctuation）、数字（string.digits）、空格符号（string.whitespace）、emoji表情包以及一些特殊字符。

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列，支持选择多个列。	无
	比例最小值	否	特殊字符个数占文本总长度比例小于该值将被过滤掉。	0
	比例最大值	是	特殊字符个数占文本总长度比例大于该值将被过滤掉。	无
	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28
执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256