通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。该组件支持稀疏和稠密数据格式。本文为您介绍PAI-Studio提供的数据视图算法的参数配置方式及使用示例。

配置组件

  • 可视化方式
    页签 参数 描述
    字段设置 选择特征列 用来表现训练样本数据特征的列。
    选择目标列 用来进行训练样本数据的目标列。
    枚举特征 勾选的特征将被视作枚举特征处理。
    k:v,k:v稀疏数据格式 是否采用KV格式的稀疏数据。
    参数设置 连续特征离散区间数 连续性特征等距离划分最大区间数。
    执行调优 计算核心数 计算的核心数,取值范围为正整数。
    每个核心内存 每个核心的内存,取值范围为1 MB~65536 MB。
  • PAI命令
    PAI
    -name fe_meta_runner
    -project algo_public
    -DinputTable="pai_dense_10_10"
    -DoutputTable="pai_temp_2263_20384_1"
    -DmapTable="pai_temp_2263_20384_2"
    -DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
    -DlabelCol="y"
    -DcategoryCols="previous"
    -Dlifecycle="28"-DmaxBins="5" ;
    参数名称 是否必选 描述 默认值
    inputTable 输入表的名称。
    inputTablePartitions 输入表中,参与训练的分区。系统支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级分区
    说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
    outputTable 输出表名称。
    mapTable 输出映射表,数据视图对String类字符串会做一个统计,映射成数字(转换成Int方便机器学习识别和训练)
    selectedCols 输入表选择列名类型。
    categoryCols 把Int或者Double字段当做枚举特征。
    maxBins 连续性特征等距离划分最大区间数。 100
    isSparse 输入数据是否为稀疏格式,取值范围为{ture,false} false
    itemSpliter 当输入表数据为稀疏格式时,KV对之间的分隔符。 英文逗号(,)
    kvSpliter 当输入表数据为稀疏格式时,keyvalue之间的分隔符。 英文冒号(:)
    lifecycle 表的声明周期。 28
    coreNum 计算的核心数,取值范围为正整数。取值范围[1, 9999]。 系统自动分配
    memSizePerCore 每个核心的内存,取值范围为1 MB~65536 MB。 系统自动分配