本文为您介绍PAI-Designer(原PAI-Studio)提供的Doc2Vec算法组件。

您可以通过Doc2Vec算法组件将文章映射为向量。输入为词汇表,输出为文档向量表、词向量表或词汇表。
说明 Doc2Vec算法是将文档ID作为一个词去训练的,在这种情况下,句向量是这个文档ID对应的向量,词向量是文档ID作为上下文,训练出来的词向量。

PAI-Designer(原PAI-Studio)支持通过可视化或PAI命令方式,配置Doc2Vec算法组件相关参数。

可视化方式

页签 参数 描述
IO/字段设置 文档ID列名 用来进行训练的文档列名。
文档内容 用来进行训练的词汇,以空格分隔。
参数设置 单词的特征维度 单词的特征维度数量。取值范围为0~1000,默认值为100。
语言模型 训练使用的语言模型。取值范围为skip-gram模型cbow模型,默认值为skip-gram模型
单词窗口大小 单词的窗口大小。取值范围为正整数,默认值为5。
截断的最小词频 取值范围为正整数,默认值为5。
Hierarchical Softmax 是否采用HIERARCHICAL SOFTMAX。默认采用。
Negative Sampling 负采样的窗口大小。取值范围为正整数,默认值为5,0表示不可用。
向下采样阈值 向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。
开始学习速率 取值大于0,默认值为0.025。
训练的迭代次数 取值大于等于1,默认值为1。
Window是否随机 指定单词窗口的展示方式。取值范围为大小在1~5间随机不随机,其值由window参数指定,默认值为不随机,其值由window参数指定
执行调优 计算的核心数 默认为系统自动分配。
每个核心的内存(MB) 默认为系统自动分配。

PAI命令方式

PAI -name pai_doc2vec
    -project algo_public
    -DinputTableName=d2v_input
    -DdocIdColName=docid
    -DdocColName=text_seg
    -DoutputWordTableName=d2v_word_output
    -DoutputDocTableName=d2v_doc_output;
参数名称 是否必选 描述 默认值
inputTableName 输入词汇表的名称。
inputTablePartitions 输入词汇表中参与分词的分区名称。格式为partition_name=value。多级分区格式为name1=value1/name2=value2。如果指定多个分区,用英文逗号(,)分隔。
docIdColName 用来进行训练的文档列名。
docColName 用来进行训练的词汇,以空格分隔。
layerSize 单词的特征维度数量。取值范围为0~1000。 100
cbow 训练使用的语言模型。取值范围为0(skip-gram模型)和1(cbow模型)。 0
window 单词的窗口大小。取值范围为正整数。 5
minCount 截断的最小词频。取值范围为正整数。 5
hs 是否采用HIERARCHICAL SOFTMAX。取值范围为0(不采用)和1(采用)。 1
negative 负采样的窗口大小。取值范围为正整数,0表示不可用。 5
sample 向下采样的阈值。取值范围为1e-3~1e-5,默认值为1e-3,0表示不可用。 1e-3
alpha 取值大于0。 0.025
iterTrain 取值大于等于1。 1
randomWindow 指定单词窗口的展示方式。取值范围为0(不随机,其值由window参数指定)和1(大小在1~5间随机)。 1
outVocabularyTableName 输出词汇表名称。
outputWordTableName 输出词向量表名称。
outputDocTableName 输出文档向量表名称。
lifecycle 输出表的生命周期。取值范围为正整数。
coreNum 核心数,需要与memSizePerCore参数同时设置才生效。取值范围为正整数。 系统自动分配
memSizePerCore 内存数,需要与coreNum参数同时设置才生效。取值范围为正整数。 系统自动分配