本文为您介绍Designer提供的停用词过滤算法组件。
停用词过滤算法组件是文本分析中的一个预处理方法,用于过滤分词结果中的噪声(例如的、是或啊)。
停用词过滤算法组件的两个输入桩为输入表和停用词表。输入表为需要过滤停用词的表。停用词表的格式为一列,每行对应一个停用词。
Designer支持通过可视化或PAI命令方式,配置停用词过滤算法组件相关参数。
组件配置
您可以使用以下任意一种方式,配置停用词过滤组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 待过滤列 | 指定待过滤的列,多列以英文逗号(,)分隔。 |
执行调优 | 核心数 | 默认为系统自动分配。 |
内存数 | 默认为系统自动分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name FilterNoise -project algo_public \
-DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
-DoutputTableName=”test_output” \
-DselectedColNames=”words_seg1,words_seg2” \
-Dlifecycle=30
参数名称 | 是否必选 | 描述 | 默认值 |
inputTableName | 是 | 输入分词表的名称。 | 无 |
inputTablePartitions | 否 | 输入分词表的分区名称。 | 所有分区 |
noiseTableName | 是 | 停用词表的名称。 | 无 |
noiseTablePartitions | 否 | 停用词表的分区名称。 | 所有分区 |
outputTableName | 是 | 输出表的名称。 | 无 |
selectedColNames | 是 | 指定待过滤的列,多列以英文逗号(,)分隔。 | 无 |
lifecycle | 否 | 输出表的生命周期。取值范围为正整数。 | 无 |
coreNum | 否 | 计算的核心数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存数。 | 系统自动分配 |
示例
输入数据
输入分词表temp_word_seg_input示例如下。
停用词表temp_word_noise_input示例如下。
创建实验
选择待过滤列
选择seg字段为待过滤列。
运行结果
文档内容是否对您有帮助?