通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。该组件支持稀疏和稠密数据格式。本文为您介绍PAI-Designer(原PAI-Studio)提供的数据视图算法的参数配置方式及使用示例。

组件配置

您可以使用以下任意一种方式,配置数据视图组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 参数 描述
字段设置 选择特征列 用来表现训练样本数据特征的列。
选择目标列 用来进行训练样本数据的目标列。
枚举特征 勾选的特征将被视作枚举特征处理。
k:v,k:v稀疏数据格式 是否采用KV格式的稀疏数据。
参数设置 连续特征离散区间数 连续性特征等距离划分最大区间数。
执行调优 计算核心数 计算的核心数,取值范围为正整数。
每个核心内存 每个核心的内存,取值范围为1 MB~65536 MB。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;
参数名称 是否必选 描述 默认值
inputTable 输入表的名称。
inputTablePartitions 输入表中,参与训练的分区。系统支持以下格式:
  • Partition_name=value
  • name1=value1/name2=value2:多级分区
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
outputTable 输出表名称。
mapTable 输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练)
selectedCols 输入表选择列名类型。
labelCol 标签列。
categoryCols 把Int或者Double字段当做枚举特征。
maxBins 连续性特征等距离划分最大区间数。 100
isSparse 输入数据是否为稀疏格式,取值范围为{true,false} false
itemSpliter 当输入表数据为稀疏格式时,KV对之间的分隔符。 英文逗号(,)
kvSpliter 当输入表数据为稀疏格式时,keyvalue之间的分隔符。 英文冒号(:)
lifecycle 表的生命周期。 28
coreNum 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 系统自动分配
memSizePerCore 每个核心的内存,取值范围为1 MB~65536 MB。 系统自动分配

示例

  • 输入数据
    age workclass fwlght edu edu_num married c family race sex gail loss work_year country income
    39 State-gov 77516 Bachelors 13 Never-married Adm-clerical Not-in-family White Male 2174.0 0.0 40.0 United-States <=50K
    50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse Exec-managerial Husband White Male 0.0 0.0 13.0 United-States <=50K
    38 Private 215646 HS-grad 9 Divorced Handlers-cleaners Not-in-family White Male 0.0 0.0 40.0 United-States <=50K
    53 Private 234721 11th 7 Married-civ-spouse Handlers-cleaners Husband Black Male 0.0 0.0 40.0 United-States <=50K
    28 Private 338409 Bachelors 13 Married-civ-spouse Prof-specialty Wife Black Female 0.0 0.0 40.0 Other <=50K
    37 Private 284582 Masters 14 Married-civ-spouse Exec-managerial Wife White Female 0.0 0.0 40.0 United-States <=50K
    49 Private 160187 9th 5 Married-spouse-absent Other-service Not-in-family Black Female 0.0 0.0 16.0 Jamaica <=50K
    52 Self-emp-not-inc 209642 HS-grad 9 Married-civ-spouse Exec-managerial Husband White Male 0.0 0.0 45.0 United-States >50K
    31 Private 45781 Masters 14 Never-married Prof-specialty Not-in-family White Female 14084.0 0.0 50.0 United-States >50K
    42 Private 159449 Bachelors 13 Married-civ-spouse Exec-managerial Husband White Male 5178.0 0.0 40.0 United-States >50K
  • 建模DAG建模DAG
    数据视图字段设置页签,选择income为目标列,其他14个字段为特征列,其中BIGINT类型的edu_num字段作为枚举值处理。数据视图配置
  • 建模效果
    • 右键单击数据视图,选择查看数据 > 输出,为了方便数据被机器学习算法训练,将STRING字段的familyracesexincome等映射成数值(某种程度有数据格式转换的功能)。输出
    • 右键单击数据视图,选择查看数据 > String字段特征值映射表
      说明 如果没有选择STRING类型的特征列,则输出结果中String字段特征值映射表内容为空。
      映射表
    • 右键单击数据视图,选择查看数据 > 输出Meta表输出Meta表其中:distribute_info表示将最大值和最小值区间等距划分,然后统计每个区间里的数据条数。