ngram-count

更新时间:2025-04-02 03:01:44

ngram-count是语言模型训练过程中的一个关键步骤,涉及生成和统计n-gram的出现频率。在此过程中,算法在整个语料库中识别连续的n个词(n-gram),并计算其出现次数,以构建词汇之间的统计关系模型。结果反映的是n-gram在整个语料集上的全局计数,而非局限于单个文档的统计。

组件配置

方式一:可视化方式

Designer工作流页面添加ngram-count组件,并在界面右侧配置相关参数:

参数类型

参数

描述

参数类型

参数

描述

字段设置

输入表中句子所在的列

输入表中句子所在列字段。

词袋中词所在的列名

选择词袋中词所在的列名。

输入的count结果表的words

输入的count结果表的words列。

输入的count结果表的count

输入的count结果表的count列。

句子的权重列

输入句子的权重列。

参数设置

N-grams的最大长度

设置N-grams的最大长度,默认为3。

执行调优

可选,核心个数

默认自动选择。

可选,单个核心使用的内存数

默认自动选择,单位为MB。

方式二:PAI命令方式

使用PAI命令配置ngram-count组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

参数

是否必选

默认值

描述

参数

是否必选

默认值

描述

inputTableName

输入表。

outputTableName

输出表。

inputSelectedColNames

第一个字符类型的列

输入表选择列。

weightColName

1

权重列名。

inputTablePartitions

选择全表

输入表指定分区。

countTableName

ngram-count以往的输出表,最终结果将合并这张表。

countWordColName

选择第二列

count表中词所在的列名。

countCountColName

选择第三列

count表中count所在的列。

countTablePartitions

count表指定分区。

vocabTableName

词袋表,不在词袋中的词在结果中会被标识为\<unk\。

vocabSelectedColName

选择第一个字符类型的列

词袋所在的列名。

vocabTablePartitions

词袋表指定分区。

order

3

N-grams的最大长度。

lifecycle

输出表的生命周期。

coreNum

核心个数。

memSizePerCore

单个核心使用的内存数。单位为MB。

  • 本页导读 (1)
  • 组件配置
  • 方式一:可视化方式
  • 方式二:PAI命令方式