本文为您介绍PAI-Studio提供的停用词过滤算法组件。
停用词过滤算法组件是文本分析中的一个预处理方法,用于过滤分词结果中的噪声(例如的、是或啊)。
停用词过滤算法组件的两个输入桩为输入表和停用词表。输入表为需要过滤停用词的表。停用词表的格式为一列,每行对应一个停用词。
PAI-Studio支持通过可视化或PAI命令方式,配置停用词过滤算法组件相关参数。
配置组件
- 可视化方式
页签 参数 描述 字段设置 待过滤列 指定待过滤的列,多列以英文逗号(,)分隔。 执行调优 核心数 默认为系统自动分配。 内存数 默认为系统自动分配。 - PAI命令方式
PAI -name FilterNoise -project algo_public \ -DinputTableName=”test_input” -DnoiseTableName=”noise_input” \ -DoutputTableName=”test_output” \ -DselectedColNames=”words_seg1,words_seg2” \ -Dlifecycle=30
参数名称 是否必选 描述 默认值 inputTableName 是 输入分词表的名称。 无 inputTablePartitions 否 输入分词表的分区名称。 所有分区 noiseTableName 是 停用词表的名称。 无 noiseTablePartitions 否 停用词表的分区名称。 所有分区 outputTableName 是 输出表的名称。 无 selectedColNames 是 指定待过滤的列,多列以英文逗号(,)分隔。 无 lifecycle 否 输出表的生命周期。取值范围为正整数。 无 coreNum 否 计算的核心数。 系统自动分配 memSizePerCore 否 每个核心的内存数。 系统自动分配
示例
- 输入数据
- 输入分词表temp_word_seg_input示例如下。
- 停用词表temp_word_noise_input示例如下。
- 输入分词表temp_word_seg_input示例如下。
- 创建实验
- 选择待过滤列
选择seg字段为待过滤列。
- 运行结果
在文档使用中是否遇到以下问题
更多建议
匿名提交