使用LLM-敏感词过滤（DLC）组件过滤敏感词-人工智能平台 PAI-阿里云

LLM-敏感词过滤（DLC）组件主要用于过滤掉带有敏感词的样本。输入的OSS数据文件（JSONL格式，示例）需符合：每一行是一个合法的JSON对象，文件由多行JSON对象组成，整个文件本身不是合法的JSON对象。

支持的计算资源

识别并过滤包含敏感词的文本样本，支持返回文本中包含的敏感词。默认提供的敏感词数量共12000+。

在Designer工作流页面添加LLM-敏感词过滤（DLC）组件，并在界面右侧配置相关参数：

参数类型	参数		是否必选	描述	默认值
字段设置	目标处理字段		是	要处理的字段名称。	无
	数据输出OSS目录		否	处理后数据的OSS存储目录。如果为空，使用工作空间默认路径。	无
	敏感词文件		否	敏感词文件路径。置空时，使用默认的敏感词列表。文件格式为："敏感词1\n敏感词2\n..."，敏感词之间用换行符分隔。	预置敏感词文件
执行调优	多进程个数		否	设置进程数。	8
	选择资源组	公共资源组	否	选择节点规格（CPU或GPU实例规格）、节点数量、专有网络。	无
	选择资源组	专有资源组	否	选择CPU核数、内存、共享内存、GPU卡数、节点数量。	无
	最大运行时长		否	组件最大运行时长，超过这个时间，作业会被kill。	无