本文为您介绍PAI-Studio提供的ngram-count算法组件。
ngram-count是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。其结果是全局的个数,而不是单个文档的个数。详情请参见ngram-count。
配置组件
PAI-Studio支持通过可视化或PAI命令的方式,配置组件参数:
- 可视化方式
页签 参数 描述 字段设置 输入表中句子所在的列 输入表中句子所在列字段。 词袋中词所在的列名 选择词袋中词所在的列名。 输入的count结果表的words列 输入的count结果表的words列。 输入的count结果表的count列 输入的count结果表的count列。 句子的权重列 输入句子的权重列。 参数设置 N-grams的最大长度 设置N-grams的最大长度,默认为3。 执行调优 可选,核心个数 默认自动选择。 可选,单个核心使用的内存数 默认自动选择。 - PAI命令方式
PAI -name ngram_count -project algo_public -DinputTableName=pai_ngram_input -DoutputTableName=pai_ngram_output -DinputSelectedColNames=col0 -DweightColName=weight -DcoreNum=2 -DmemSizePerCore=1000;
参数名称 是否必选 默认值 描述 inputTableName 是 无 输入表 outputTableName 是 无 输出表 inputSelectedColNames 否 第一个字符类型的列 输入表选择列 weightColName 否 1 权重列名 inputTablePartitions 否 选择全表 输入表指定分区 countTableName 否 无 ngram-count以往的输出表,最终结果将合并这张表。 countWordColName 否 选择第二列 count表中词所在的列名 countCountColName 否 选择第三列 count表中count所在的列 countTablePartitions 否 无 count表指定分区 vocabTableName 否 无 词袋表,不在词袋中的词在结果中会被标识为\<unk\。 vocabSelectedColName 否 选择第一个字符类型的列 词袋所在的列名 vocabTablePartitions 否 无 词袋表指定分区 order 否 3 N-grams的最大长度 lifecycle 否 无 输出表的生命周期 coreNum 否 无 核心个数 memSizePerCore 否 无 单个核心使用的内存数
在文档使用中是否遇到以下问题
更多建议
匿名提交