使用LLM-长度过滤根据文本长度过滤样本-人工智能平台 PAI-阿里云

文档备案控制台

LLM-长度过滤组件主要用于大语言模型（LLM）的文本数据预处理工作，根据文本长度、平均长度、最大行长度等过滤样本。平均长度和最大行长度过滤默认会将文本按行切分再进行统计。

使用限制

仅支持MaxCompute计算引擎。

可视化配置参数

您可以在Designer中，通过可视化的方式配置组件参数。

页签	参数	是否必选	描述	默认值
字段设置	选择目标处理列	是	选择要处理的列，支持选择多个列。	无
	是否根据样本长度过滤	否	文本分隔符：根据分隔符将文本进行拆分，并统计拆分后的列表长度，默认为空。如果为空，则不做拆分，直接统计文本的长度。分隔符需用半角双引号（""）括起来。长度最小值：文本长度小于该值将被过滤掉。长度最大值：文本长度大于该值将被过滤掉。	无
	是否根据样本平均长度过滤	否	平均长度最小值：样本平均长度小于该值将被过滤掉。平均长度最大值：样本平均长度大于该值将被过滤掉。	无
	是否根据样本最大行长度过滤	否	最大行长度最小值：最大一行的长度小于该值样本将被过滤掉。最大行长度最大值：最大一行的长度大于该值样本将被过滤掉。	无
	设置输出表生命周期	否	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。	28
执行调优	每个实例的cpu数目	否	设定map task每个instance的CPU数目，取值范围为[50,800]。	100
	每个实例的memory大小，单位M	否	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。	1024
	每个实例处理的数据大小，单位M	否	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。	256

相关文档

关于Designer组件更详细的内容介绍，请参见Designer概述。

上一篇：LLM-计数过滤（MaxCompute）下一篇：LLM-文本质量打分和语种识别（MaxCompute）

该文章对您有帮助吗？