配置ngram-count组件参数-人工智能平台 PAI-阿里云

ngram-count是语言模型训练过程中的一个关键步骤，涉及生成和统计n-gram的出现频率。在此过程中，算法在整个语料库中识别连续的n个词（n-gram），并计算其出现次数，以构建词汇之间的统计关系模型。结果反映的是n-gram在整个语料集上的全局计数，而非局限于单个文档的统计。

组件配置

方式一：可视化方式

在Designer工作流页面添加ngram-count组件，并在界面右侧配置相关参数：

参数类型	参数	描述
字段设置	输入表中句子所在的列	输入表中句子所在列字段。
	词袋中词所在的列名	选择词袋中词所在的列名。
	输入的count结果表的words列	输入的count结果表的words列。
	输入的count结果表的count列	输入的count结果表的count列。
	句子的权重列	输入句子的权重列。
参数设置	N-grams的最大长度	设置N-grams的最大长度，默认为3。
执行调优	可选，核心个数	默认自动选择。
执行调优	可选，单个核心使用的内存数	默认自动选择，单位为MB。

方式二：PAI命令方式

使用PAI命令配置ngram-count组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

参数	是否必选	默认值	描述
inputTableName	是	无	输入表。
outputTableName	是	无	输出表。
inputSelectedColNames	否	第一个字符类型的列	输入表选择列。
weightColName	否	1	权重列名。
inputTablePartitions	否	选择全表	输入表指定分区。
countTableName	否	无	ngram-count以往的输出表，最终结果将合并这张表。
countWordColName	否	选择第二列	count表中词所在的列名。
countCountColName	否	选择第三列	count表中count所在的列。
countTablePartitions	否	无	count表指定分区。
vocabTableName	否	无	词袋表，不在词袋中的词在结果中会被标识为\<unk\。
vocabSelectedColName	否	选择第一个字符类型的列	词袋所在的列名。
vocabTablePartitions	否	无	词袋表指定分区。
order	否	3	N-grams的最大长度。
lifecycle	否	无	输出表的生命周期。
coreNum	否	无	核心个数。
memSizePerCore	否	无	单个核心使用的内存数。单位为MB。