本文为您介绍PAI-Studio提供的停用词过滤算法组件。

停用词过滤算法组件是文本分析中的一个预处理方法,用于过滤分词结果中的噪声(例如的、是或啊)。

停用词过滤算法组件的两个输入桩为输入表和停用词表。输入表为需要过滤停用词的表。停用词表的格式为一列,每行对应一个停用词。

PAI-Studio支持通过可视化或PAI命令方式,配置停用词过滤算法组件相关参数。

配置组件

  • 可视化方式
    页签 参数 描述
    字段设置 待过滤列 指定待过滤的列,多列以英文逗号(,)分隔。
    执行调优 核心数 默认为系统自动分配。
    内存数 默认为系统自动分配。
  • PAI命令方式
    PAI -name FilterNoise -project algo_public \
        -DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
        -DoutputTableName=”test_output” \
        -DselectedColNames=”words_seg1,words_seg2” \
        -Dlifecycle=30
    参数名称 是否必选 描述 默认值
    inputTableName 输入分词表的名称。
    inputTablePartitions 输入分词表的分区名称。 所有分区
    noiseTableName 停用词表的名称。
    noiseTablePartitions 停用词表的分区名称。 所有分区
    outputTableName 输出表的名称。
    selectedColNames 指定待过滤的列,多列以英文逗号(,)分隔。
    lifecycle 输出表的生命周期。取值范围为正整数。
    coreNum 计算的核心数。 系统自动分配
    memSizePerCore 每个核心的内存数。 系统自动分配

示例

  • 输入数据
    • 输入分词表temp_word_seg_input示例如下。输入表
    • 停用词表temp_word_noise_input示例如下。停用词表
  • 创建实验创建实验
  • 选择待过滤列

    选择seg字段为待过滤列。

    待过滤列
  • 运行结果运行结果