通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。该组件支持稀疏和稠密数据格式。本文为您介绍PAI-Studio提供的数据视图算法的参数配置方式及使用示例。
配置组件
- 可视化方式
页签 参数 描述 字段设置 选择特征列 用来表现训练样本数据特征的列。 选择目标列 用来进行训练样本数据的目标列。 枚举特征 勾选的特征将被视作枚举特征处理。 k:v,k:v稀疏数据格式 是否采用KV格式的稀疏数据。 参数设置 连续特征离散区间数 连续性特征等距离划分最大区间数。 执行调优 计算核心数 计算的核心数,取值范围为正整数。 每个核心内存 每个核心的内存,取值范围为1 MB~65536 MB。 - PAI命令
PAI -name fe_meta_runner -project algo_public -DinputTable="pai_dense_10_10" -DoutputTable="pai_temp_2263_20384_1" -DmapTable="pai_temp_2263_20384_2" -DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome" -DlabelCol="y" -DcategoryCols="previous" -Dlifecycle="28"-DmaxBins="5" ;
参数名称 是否必选 描述 默认值 inputTable 是 输入表的名称。 无 inputTablePartitions 是 输入表中,参与训练的分区。系统支持以下格式: - Partition_name=value
- name1=value1/name2=value2:多级分区
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。无 outputTable 是 输出表名称。 无 mapTable 是 输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练) 无 selectedCols 是 输入表选择列名类型。 无 categoryCols 否 把Int或者Double字段当做枚举特征。 无 maxBins 否 连续性特征等距离划分最大区间数。 100 isSparse 否 输入数据是否为稀疏格式,取值范围为{ture,false}。 false itemSpliter 否 当输入表数据为稀疏格式时,KV对之间的分隔符。 英文逗号(,) kvSpliter 否 当输入表数据为稀疏格式时,key和value之间的分隔符。 英文冒号(:) lifecycle 否 表的声明周期。 28 coreNum 否 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 系统自动分配 memSizePerCore 否 每个核心的内存,取值范围为1 MB~65536 MB。 系统自动分配
在文档使用中是否遇到以下问题
更多建议
匿名提交