使用LLM-计数过滤（DLC）按数字字母比例过滤样本-人工智能平台 PAI-阿里云

文档备案控制台

输入文档关键字查找

LLM-计数过滤（DLC）组件主要用于根据数字和字母字符比例过滤样本。输入的OSS数据文件（JSONL格式，示例）需符合：每一行是一个合法的JSON对象，文件由多行JSON对象组成，整个文件本身不是合法的JSON对象。

支持的计算资源

算法说明

LLM-计数过滤组件支持以下功能：

根据数字和字母字符比例过滤
统计文本中是数字或者字母的字符占总文本长度的比例过滤样本。
根据字母字符占文本token比例过滤
统计文本中所有字母字符的个数，并使用pythia-6.9b-deduped模型将文本切分为token，计算字母字符和token个数的比值。根据比值过滤样本。

配置组件

在Designer工作流页面添加LLM-计数过滤（DLC）组件，并在界面右侧配置相关参数：

参数类型	参数		是否必选	描述	默认值
字段设置	目标处理字段		是	要处理的字段名称。	无
	是否根据数字和字母字符比例过滤		否	是否根据数字和字母字符的比例过滤。如果选中，需配置以下参数：数字和字母字符比例最小值数字和字母字符比例最大值	未选中
	是否根据字母字符占文本token比例过滤		否	统计文本中的所有字母字符个数，并使用pythia-6.9b-deduped模型将文本切分为token，计算字母个数和token个数的比值。如果选中，需配置以下参数：字母占文本token比例最小值字母占文本token比例最大值	未选中
	数据输出OSS目录		否	处理后数据的OSS存储目录。如果为空，使用工作空间默认路径。	无
执行调优	多进程个数		否	设置进程数。	8
	选择资源组	公共资源组	否	选择节点规格（CPU或GPU实例规格）、节点数量、专有网络。	无
	选择资源组	专有资源组	否	选择CPU核数、内存、共享内存、GPU卡数、节点数量。	无
	最大运行时长		否	组件最大运行时长，超过这个时间，作业会被kill。	无

上一篇：LLM-Copyright信息移除（DLC）下一篇：LLM-长度过滤（DLC）

该文章对您有帮助吗？