文档

LLM-敏感词过滤(MaxCompute)

更新时间:

LLM-敏感词过滤组件主要用于大语言模型(LLM)的文本数据预处理工作,可以过滤掉带有敏感词的样本。

使用限制

仅支持MaxCompute计算引擎。

算法简介

识别文本中是否包含敏感词,过滤掉包含敏感词的样本。支持返回文本中包含的敏感词。默认提供的敏感词数量共12000+。

可视化配置参数

您可以在Designer中,通过可视化的方式配置组件参数。

页签

参数

是否必选

描述

默认值

字段设置

选择目标处理列

选择要处理的列。

是否保存敏感词结果

是否将敏感词识别结果保存到输出表中。如果勾选,则在输出表中新增两列用来存储结果,否则不做存储。

  • 是否敏感词保存列名:保存是否敏感词的列名,值为bool类型,默认列名为is_sensitive。

  • 敏感词保存列名:保存敏感词的列名,默认列名为sensitive_words。

SQL脚本

where语句填写,是否敏感词默认保存到is_sensitive列,检测出的敏感词默认保存到sensitive_words列,可根据这两列的结果进行过滤。如果修改了列名,请根据修改后的列名填写。默认条件为where not is_sensitive

敏感词文件

敏感词文件路径。置空时,使用默认的敏感词列表。文件格式为:"敏感词1\n敏感词2\n...",敏感词之间用换行符分隔。

预置敏感词文件

设置输出表生命周期

正整数,单位为天。默认28天,28天后该组件产生的临时表被回收。

28

执行调优

每个实例的cpu数目

设定map task每个instance的CPU数目,取值范围为[50,800]。

100

每个实例的memory大小,单位M

设定map task每个instance的memory大小,单位为MB,取值范围为[256,12288]。

1024

每个实例处理的数据大小,单位M

设定map task每个instance的最大处理数据量,用户可以通过控制该变量,实现对map端输入的控制。单位为MB,取值范围为[1,Integer.MAX_VALUE]。

256

相关文档

关于Designer组件更详细的内容介绍,请参见Designer概述