线性模型特征重要性

页签 参数 描述 字段设置 选择特征列 输入表中,用于训练的特征列。默认选中除标签列(例如Label)外的所有列,为可选项。选择目标列 该参数为必选项。单击 选择字段,选择标签列。输入表数据是否为稀疏格式 可选项。执行调优 计算核心数 ...

过滤与映射

参数名称 是否必选 参数描述 outputTableName 是 输出表的名称 inputPartitions 否 训练输入表分区。输入表对应的输入分区,选中全表则为None。inputTableName 是 输入表的名称 filter 否 通过where条件实现数据过滤,与SQL类似,例如 age>...

协方差

参数名称 是否必须 描述 默认值 inputTableName 是 输入表的名称。无 inputTablePartitions 否 输入表中,参与训练的分区。系统支持以下格式:Partition_name=value name1=value1/name2=value2:多级分区 说明 指定多个分区时,分区之间...

随机森林特征重要性

页签 参数 描述 字段设置 选择特征列 输入表中,用于训练的特征列。默认选中除Label外的所有列,为可选项。选择目标列 该参数为必选项。单击 图标,在 选择字段 对话框中,输入关键字搜索列,选中后单击 确定。参数设置 并行计算核数 并行...

语义向量距离

默认为空,即输入表中的所有向量参与计算。输入端口2的 id列表 格式为一列,每一行一个ID。例如:1 2 4 6 8 向量的列名列表 如f1,f2。参数设置 输出的距离最近的向量的数目 默认值为5。距离的计算方式 支持如下计算方式:euclidean cosine...

双样本T检验

双样本T检验基于统计学原理用来检验两个样本的均值是否有显著差异。本文为您介绍 Designer 提供的双样本T检验的参数配置和使用示例。组件配置 您可以使用以下任意一种方式,配置双样本T检验组件参数。方式一:可视化方式 在 Designer 工作...

句子拆分

输入表中指定参与计算的分区 输入表的所有分区 outputTableName 是 输出表名 无 docIdCol 是 标识文章ID的列名 无 docContent 是 标识文章内容的列名,仅可指定一列。无 delimiter 否 句子的间隔字符集合。lifecycle 否 输入出表的生命周期...

回归模型评估

参数 是否必选 参数描述 默认值 inputTableName 是 输入表的名称。无 inputTablePartitions 否 输入表中,参与计算的分区。全表 yColName 是 输入表中,原始因变量的列名,支持数值类型。无 predictionColName 是 预测结果中,因变量的列名...

PLDA

STRING 输入表的所有分区 selectedColNames 否 输入表中用于LDA的列名。STRING 输入表中所有的列名 topicNum 是 Topic的数量,取值范围为[2,500]。正整数 无 kvDelimiter 否 Key和Value间的分隔符。取值:空格 英文逗号(,)英文冒号(:)...

TF-IDF

自动计算 示例 以TF-IDF组件实例中的输出表作为TF-IDF组件的输入表,对应的参数设置如下:选择文档ID列:id 选择单词列:word 选择单词计数列:count 输出表有9列:docid、word、word_count(当前word在当前doc中出现次数)、total_word_...

Table2KV

如果存在的输入Key_map表与输入表类型冲突,则输出的Key_map表使用您指定的类型。输入表中需要转换为KV的列只能为BIGINT或DOUBLE类型。组件配置 您可以使用以下任意一种方式,配置Table2KV组件参数。方式一:可视化方式 在 Designer 工作流...

增加序号列

参数名称 是否必选 参数描述 默认值 inputTableName 是 输入表的表名。无 selectedColNames 否 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。所有列 ...

逻辑回归多分类

无 featureColNames 否 输入表中,用于训练的特征列名。说明 特征数量不能超过两千万。所有数值列 labelColName 是 输入表的标签列名。无 inputTablePartitions 否 输入表中,参与训练的分区。系统支持的格式包括:partition_name=value ...

数据视图

无 mapTable 是 输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练)无 selectedCols 是 输入表选择列名类型。无 labelCol 否 标签列。无 categoryCols 否 把Int或者Double字段当做枚举特征...

主成分分析

页签 参数 描述 字段设置 选择特征列 输入表中用于分析的列名称。附加列 附加在降维数据表后的列。参数设置 信息量比例 降维后数据信息占原来的比例。特征分解方式 分解特征的方式,取值如下:CORR COVAR_SAMP COVAR_POP 数据转换方式 转换...

字符串相似度-topN

页签 参数 描述 字段设置 输入表在输出表追加的列名 输入表中需要在输出表中追加的列名。映射表在输出表追加的列名 映射表中需要在输出表中追加的列名。相似度计算中左表的列名 在相似度计算中,左表的列名。相似度计算中映射表的列名 在...

协同过滤etrec

无 inputTablePartitions 否 输入表中,参与训练的分区名称。全表 outputTableName 是 输出表的名称。无 outputTablePartition 否 输出表的Partition。无 similarityType 否 相似度类型。取值范围为 {wbcosine,asymcosine,jaccard}。...

过滤式特征选择

页签 参数 描述 字段设置 选择特征列 输入表中用于训练的特征列。选择目标列 输入表中选择的目标列名称。枚举类特征 选中的特征将被视做枚举特征处理,支持INT或DOUBLE类型。是否K:V,K:V稀疏特征 是否是K:V的稀疏特征。参数设置 特征选择...

预测

无 featureColNames 否 输入表中,参与预测的特征列,多个列以英文逗号(,)分隔。所有列 appendColNames 否 输入表中,附加至输出表的预测列。无 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式:Partition_name=value ...

特征尺度变换

无 inputTablePartitions 否 输入表中指定参与训练的分区,格式为 Partition_name=value。如果是多级分区,格式为 name1=value1/name2=value2;如果指定多个分区,则需要使用,隔开。输入表的所有分区。outputTable 是 缩放尺度后的结果表。...

特征离散

无 inputTablePartitions 否 输入表中指定参与训练的分区,格式为 Partition_name=value。如果是多级分区,格式为 name1=value1/name2=value2;如果指定多个分区,则需要使用,隔开。输入表的所有分区。outputTable 是 离散后的结果表。无 ...

文本摘要

参数名称 是否必选 描述 默认值 inputTableName 是 输入表名。无 inputTablePartitions 否 输入表中指定参与计算的分区。输入表所有分区 outputTableName 是 输出表名。无 docIdCol 是 标识文章ID的列名。无 sentenceCol 是 句子列,仅可...

Split Word

def CalcCoreNumAndMem(row,col,kOneCoreDataSize=1024):"""计算节点个数和单个节点内存 Args:row:输入表行数 col:输入表列数 kOneCoreDataSize:单个节点计算的数据量,单位MB,正整数,默认为1024 Return:coreNum,memSizePerCore ...

逻辑回归二分类

英文逗号(,)kvDelimiter 否 输入表数据为稀疏格式时,key 和 value 之间的分隔符。英文冒号(:)coreNum 否 核心数量。系统自动分配 memSizePerCore 否 单个核心使用的内存数,单位为MB。系统自动分配 PAI使用 KV 格式表示稀疏数据,如下...

洛伦兹曲线

参数名称 是否必选 描述 默认值 inputTableName 是 输入表的名称。无 outputTableName 是 输出表名称列表。无 ColName 否 输入表选择列名称。支持选择多列,列之间使用英文逗号(,)分隔。无 N 否 分位数。100 inputTablePartitions 否 ...

合并列

方式一:可视化方式 选取左表待合并的字段列,生成结果保存到右输入表的指定列。方式二:PAI命令方式 使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见 SQL脚本。PAI-name appendColumns-project algo_...

随机采样

参数名称 是否必选 参数描述 默认值 inputTableName 是 输入表的名称 无 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式:Partition_name=value name1=value1/name2=value2:多级格式 说明 如果指定多个分区,则使用半角...

拆分

参数名称 是否必选 参数描述 默认值 inputTableName 是 输入表的表名。无 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式:Partition_name=value name1=value1/name2=value2:多级格式 说明 如果指定多个分区,则使用...

GBDT二分类V2

可视化配置参数 输入桩配置 输入桩(从左到右)限制数据类型 建议上游组件 是否必选 输入数据 无 读数据表 是 组件参数 页签 参数 是否必选 描述 默认值 字段设置 是否为稀疏向量格式 否 输入表中用于训练的特征列是否为稀疏向量格式。...

离散值特征分析

稀疏矩阵 当输入表数据为稀疏格式时,需要设置KV格式的特征。方式二:PAI命令方式 使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见 SQL脚本。PAI-name enum_feature_selection-project algo_public-...

聚类模型评估

无 selectedColNames 否 输入表中,参与评估的列名,多个列以英文逗号(,)分隔。该参数必须与模型存储的特征列保持一致。所有列 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式:Partition_name=value name1=value1/...

词频统计

无 inputTablePartitions 否 输入表中,参与训练的分区。系统支持以下格式:Partition_name=value name1=value1/name2=value2:多级分区 说明 指定多个分区时,分区之间使用英文逗号(,)分隔。选择所有分区 lifecycle 否 输出表生命周期。...

分层采样

参数名称 是否必选 参数描述 默认值 inputTableName 是 输入表的名称 无 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式:Partition_name=value name1=value1/name2=value2:多级格式 说明 如果指定多个分区,则使用半角...

模型预测

可视化配置参数 输入桩 输入桩(从左到右)建议上游组件 对应PAI命令参数 是否必选 输入模型 数据类型:OSS存储的模型 支持的组件:模型训练 saved_model_dir 是 输入表 数据类型:MaxCompute表 支持的组件:SQL脚本、读数据表 input_table...

one-hot编码

参数名称 是否必选 描述 默认值 inputTable 是 输入表的名称 无 inputTablePartitions 否 输入表选择的分区名称 输入表的所有分区 binaryCols 是 one-hot编码字段,必须是枚举类特征,字段可以是任意类型。无 reserveCols 否 勾选的字段...

朴素贝叶斯

标签列 输入表的标签列,只能选择非特征列。支持STRING、DOUBLE及BIGINT类型。输入数据是否为稀疏格式 使用KV格式表示稀疏数据。当输入为稀疏时,K:V间的分隔符 默认为半角逗号(,)。当输入为稀疏时,key和value的分隔符 默认为半角冒号...

PS-SMART多分类

如果输入表是Sparse KV格式,且KV格式中 key 和 value 是数值类型,则只能选择STRING类型。无 labelColName 是 输入表的标签列,支持STRING及数值类型。如果是内部存储,则仅支持数值类型。例如多分类的 {0,1,2,…,n-1},其中 n 表示类别...

PS-SMART二分类训练

模块 参数 是否必选 描述 默认值 数据参数 featureColNames 是 输入表中,用于训练的特征列。如果输入表是Dense格式,则只能选择数值(BIGINT或DOUBLE)类型。如果输入表是Sparse KV格式,且KV格式中 key 和 value 是数值类型,则只能选择...

PS-SMART回归

如果输入表是Sparse KV格式,且KV格式中 key 和 value 是数值类型,则只能选择STRING类型。无 labelColName 是 输入表的标签列,支持STRING及数值类型。如果是内部存储,则仅支持数值类型。例如二分类中的 0 和 1。无 weightCol 否 列可以...

关键词抽取

自动计算 示例 数据生成 输入表需采用空格分词,并过滤掉停用词(如“的”、“地”、“得”、“了”、“个”)和所有标点符号。docid:string word:string doc0 翼身融合 飞机 是 未来 航空 领域 发展 一个 新 方向 诸多 研究 机构 已经 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云数据库 RDS 云服务器 ECS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用