本文为您介绍PAI-Studio提供的ngram-count算法组件。

ngram-count是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。其结果是全局的个数,而不是单个文档的个数。详情请参见ngram-count

配置组件

PAI-Studio支持通过可视化或PAI命令的方式,配置组件参数:
  • 可视化方式
    页签 参数 描述
    字段设置 输入表中句子所在的列 输入表中句子所在列字段。
    词袋中词所在的列名 选择词袋中词所在的列名。
    输入的count结果表的words列 输入的count结果表的words列。
    输入的count结果表的count列 输入的count结果表的count列。
    句子的权重列 输入句子的权重列。
    参数设置 N-grams的最大长度 设置N-grams的最大长度,默认为3。
    执行调优 可选,核心个数 默认自动选择。
    可选,单个核心使用的内存数 默认自动选择。
  • PAI命令方式
    PAI -name ngram_count    
        -project algo_public    
        -DinputTableName=pai_ngram_input    
        -DoutputTableName=pai_ngram_output    
        -DinputSelectedColNames=col0    
        -DweightColName=weight    
        -DcoreNum=2    
        -DmemSizePerCore=1000;
    参数名称 是否必选 默认值 描述
    inputTableName 输入表
    outputTableName 输出表
    inputSelectedColNames 第一个字符类型的列 输入表选择列
    weightColName 1 权重列名
    inputTablePartitions 选择全表 输入表指定分区
    countTableName ngram-count以往的输出表,最终结果将合并这张表。
    countWordColName 选择第二列 count表中词所在的列名
    countCountColName 选择第三列 count表中count所在的列
    countTablePartitions count表指定分区
    vocabTableName 词袋表,不在词袋中的词在结果中会被标识为\<unk\。
    vocabSelectedColName 选择第一个字符类型的列 词袋所在的列名
    vocabTablePartitions 词袋表指定分区
    order 3 N-grams的最大长度
    lifecycle 输出表的生命周期
    coreNum 核心个数
    memSizePerCore 单个核心使用的内存数