ngram-count

本文为您介绍Designer提供的ngram-count算法组件。

ngram-count是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。其结果是全局的个数,而不是单个文档的个数。详情请参见ngram-count

组件配置

您可以使用以下任意一种方式,配置ngram-count组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

输入表中句子所在的列

输入表中句子所在列字段。

词袋中词所在的列名

选择词袋中词所在的列名。

输入的count结果表的words

输入的count结果表的words列。

输入的count结果表的count

输入的count结果表的count列。

句子的权重列

输入句子的权重列。

参数设置

N-grams的最大长度

设置N-grams的最大长度,默认为3。

执行调优

可选,核心个数

默认自动选择。

可选,单个核心使用的内存数

默认自动选择,单位为MB。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

参数名称

是否必选

默认值

描述

inputTableName

输入表。

outputTableName

输出表。

inputSelectedColNames

第一个字符类型的列

输入表选择列。

weightColName

1

权重列名。

inputTablePartitions

选择全表

输入表指定分区。

countTableName

ngram-count以往的输出表,最终结果将合并这张表。

countWordColName

选择第二列

count表中词所在的列名。

countCountColName

选择第三列

count表中count所在的列。

countTablePartitions

count表指定分区。

vocabTableName

词袋表,不在词袋中的词在结果中会被标识为\<unk\。

vocabSelectedColName

选择第一个字符类型的列

词袋所在的列名。

vocabTablePartitions

词袋表指定分区。

order

3

N-grams的最大长度。

lifecycle

输出表的生命周期。

coreNum

核心个数。

memSizePerCore

单个核心使用的内存数。单位为MB。