ngram-count是语言模型训练过程中的一个关键步骤,涉及生成和统计n-gram的出现频率。在此过程中,算法在整个语料库中识别连续的n个词(n-gram),并计算其出现次数,以构建词汇之间的统计关系模型。结果反映的是n-gram在整个语料集上的全局计数,而非局限于单个文档的统计。
组件配置
方式一:可视化方式
在Designer工作流页面添加ngram-count组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 |
参数类型 | 参数 | 描述 |
字段设置 | 输入表中句子所在的列 | 输入表中句子所在列字段。 |
词袋中词所在的列名 | 选择词袋中词所在的列名。 | |
输入的count结果表的words列 | 输入的count结果表的words列。 | |
输入的count结果表的count列 | 输入的count结果表的count列。 | |
句子的权重列 | 输入句子的权重列。 | |
参数设置 | N-grams的最大长度 | 设置N-grams的最大长度,默认为3。 |
执行调优 | 可选,核心个数 | 默认自动选择。 |
可选,单个核心使用的内存数 | 默认自动选择,单位为MB。 |
方式二:PAI命令方式
使用PAI命令配置ngram-count组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name ngram_count
-project algo_public
-DinputTableName=pai_ngram_input
-DoutputTableName=pai_ngram_output
-DinputSelectedColNames=col0
-DweightColName=weight
-DcoreNum=2
-DmemSizePerCore=1000;
参数 | 是否必选 | 默认值 | 描述 |
参数 | 是否必选 | 默认值 | 描述 |
inputTableName | 是 | 无 | 输入表。 |
outputTableName | 是 | 无 | 输出表。 |
inputSelectedColNames | 否 | 第一个字符类型的列 | 输入表选择列。 |
weightColName | 否 | 1 | 权重列名。 |
inputTablePartitions | 否 | 选择全表 | 输入表指定分区。 |
countTableName | 否 | 无 | ngram-count以往的输出表,最终结果将合并这张表。 |
countWordColName | 否 | 选择第二列 | count表中词所在的列名。 |
countCountColName | 否 | 选择第三列 | count表中count所在的列。 |
countTablePartitions | 否 | 无 | count表指定分区。 |
vocabTableName | 否 | 无 | 词袋表,不在词袋中的词在结果中会被标识为\<unk\。 |
vocabSelectedColName | 否 | 选择第一个字符类型的列 | 词袋所在的列名。 |
vocabTablePartitions | 否 | 无 | 词袋表指定分区。 |
order | 否 | 3 | N-grams的最大长度。 |
lifecycle | 否 | 无 | 输出表的生命周期。 |
coreNum | 否 | 无 | 核心个数。 |
memSizePerCore | 否 | 无 | 单个核心使用的内存数。单位为MB。 |
- 本页导读 (1)
- 组件配置
- 方式一:可视化方式
- 方式二:PAI命令方式